文章詳情頁

Python如何對XML 解析

瀏覽：60日期：2022-07-19 14:13:56

什么是 XML？

XML 指可擴展標記語言（eXtensible Markup Language），標準通用標記語言的子集，是一種用于標記電子文件使其具有結構性的標記語言。你可以通過本站學習 XML 教程

XML 被設計用來傳輸和存儲數據。

XML 是一套定義語義標記的規則，這些標記將文檔分成許多部件并對這些部件加以標識。

它也是元標記語言，即定義了用于定義其他與特定領域有關的、語義的、結構化的標記語言的句法語言。

Python 對 XML 的解析

常見的 XML 編程接口有 DOM 和 SAX，這兩種接口處理 XML 文件的方式不同，當然使用場合也不同。

Python 有三種方法解析 XML，SAX，DOM，以及 ElementTree:

1.SAX (simple API for XML )

Python 標準庫包含 SAX 解析器，SAX 用事件驅動模型，通過在解析 XML 的過程中觸發一個個的事件并調用用戶定義的回調函數來處理 XML 文件。

2.DOM(Document Object Model)

將 XML 數據在內存中解析成一個樹，通過對樹的操作來操作 XML。

本章節使用到的 XML 實例文件 movies.xml 內容如下：

<collection shelf='New Arrivals'><movie> <type>War, Thriller</type> <format>DVD</format> <year>2003</year> <rating>PG</rating> <stars>10</stars> <description>Talk about a US-Japan war</description></movie><movie> <type>Anime, Science Fiction</type> <format>DVD</format> <year>1989</year> <rating>R</rating> <stars>8</stars> <description>A schientific fiction</description></movie> <movie> <type>Anime, Action</type> <format>DVD</format> <episodes>4</episodes> <rating>PG</rating> <stars>10</stars> <description>Vash the Stampede!</description></movie><movie> <type>Comedy</type> <format>VHS</format> <rating>PG</rating> <stars>2</stars> <description>Viewable boredom</description></movie></collection>

Python 使用 SAX 解析 xml

SAX 是一種基于事件驅動的API。

利用 SAX 解析 XML 文檔牽涉到兩個部分: 解析器和事件處理器。

解析器負責讀取 XML 文檔，并向事件處理器發送事件，如元素開始跟元素結束事件。

而事件處理器則負責對事件作出響應，對傳遞的 XML 數據進行處理。

1、對大型文件進行處理； 2、只需要文件的部分內容，或者只需從文件中得到特定信息。 3、想建立自己的對象模型的時候。

在 Python 中使用 sax 方式處理 xml 要先引入 xml.sax 中的 parse 函數，還有 xml.sax.handler 中的 ContentHandler。

ContentHandler 類方法介紹

characters(content) 方法

調用時機：

從行開始，遇到標簽之前，存在字符，content 的值為這些字符串。

從一個標簽，遇到下一個標簽之前，存在字符，content 的值為這些字符串。

從一個標簽，遇到行結束符之前，存在字符，content 的值為這些字符串。

標簽可以是開始標簽，也可以是結束標簽。

startDocument() 方法

文檔啟動的時候調用。

endDocument() 方法

解析器到達文檔結尾時調用。

startElement(name, attrs) 方法

遇到XML開始標簽時調用，name 是標簽的名字，attrs 是標簽的屬性值字典。

endElement(name) 方法

遇到XML結束標簽時調用。

make_parser 方法

以下方法創建一個新的解析器對象并返回。

xml.sax.make_parser( [parser_list] )

參數說明:

parser_list - 可選參數，解析器列表

parser 方法

以下方法創建一個 SAX 解析器并解析xml文檔：

xml.sax.parse( xmlfile, contenthandler[, errorhandler])

參數說明:

xmlfile - xml文件名 contenthandler - 必須是一個 ContentHandler 的對象 errorhandler - 如果指定該參數，errorhandler 必須是一個 SAX ErrorHandler 對象

parseString 方法

parseString 方法創建一個 XML 解析器并解析 xml 字符串：

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

參數說明:

xmlstring - xml字符串 contenthandler - 必須是一個 ContentHandler 的對象 errorhandler - 如果指定該參數，errorhandler 必須是一個 SAX ErrorHandler對象

Python 解析XML實例

#!/usr/bin/python3import xml.saxclass MovieHandler( xml.sax.ContentHandler ): def __init__(self): self.CurrentData = '' self.type = '' self.format = '' self.year = '' self.rating = '' self.stars = '' self.description = '' # 元素開始調用 def startElement(self, tag, attributes): self.CurrentData = tag if tag == 'movie': print ('*****Movie*****') title = attributes['title'] print ('Title:', title) # 元素結束調用 def endElement(self, tag): if self.CurrentData == 'type': print ('Type:', self.type) elif self.CurrentData == 'format': print ('Format:', self.format) elif self.CurrentData == 'year': print ('Year:', self.year) elif self.CurrentData == 'rating': print ('Rating:', self.rating) elif self.CurrentData == 'stars': print ('Stars:', self.stars) elif self.CurrentData == 'description': print ('Description:', self.description) self.CurrentData = '' # 讀取字符時調用 def characters(self, content): if self.CurrentData == 'type': self.type = content elif self.CurrentData == 'format': self.format = content elif self.CurrentData == 'year': self.year = content elif self.CurrentData == 'rating': self.rating = content elif self.CurrentData == 'stars': self.stars = content elif self.CurrentData == 'description': self.description = content if ( __name__ == '__main__'): # 創建一個 XMLReader parser = xml.sax.make_parser() # 關閉命名空間 parser.setFeature(xml.sax.handler.feature_namespaces, 0) # 重寫 ContextHandler Handler = MovieHandler() parser.setContentHandler( Handler ) parser.parse('movies.xml')

以上代碼執行結果如下：

*****Movie*****Title: Enemy BehindType: War, ThrillerFormat: DVDYear: 2003Rating: PGStars: 10Description: Talk about a US-Japan war*****Movie*****Title: TransformersType: Anime, Science FictionFormat: DVDYear: 1989Rating: RStars: 8Description: A schientific fiction*****Movie*****Title: TrigunType: Anime, ActionFormat: DVDRating: PGStars: 10Description: Vash the Stampede!*****Movie*****Title: IshtarType: ComedyFormat: VHSRating: PGStars: 2Description: Viewable boredom

完整的 SAX API 文檔請查閱Python SAX APIs

使用xml.dom解析xml

文件對象模型（Document Object Model，簡稱DOM），是W3C組織推薦的處理可擴展置標語言的標準編程接口。

一個 DOM 的解析器在解析一個 XML 文檔時，一次性讀取整個文檔，把文檔中所有元素保存在內存中的一個樹結構里，之后你可以利用DOM 提供的不同的函數來讀取或修改文檔的內容和結構，也可以把修改過的內容寫入xml文件。

python中用xml.dom.minidom來解析xml文件，實例如下：

#!/usr/bin/python3from xml.dom.minidom import parseimport xml.dom.minidom# 使用minidom解析器打開 XML 文檔DOMTree = xml.dom.minidom.parse('movies.xml')collection = DOMTree.documentElementif collection.hasAttribute('shelf'): print ('Root element : %s' % collection.getAttribute('shelf'))# 在集合中獲取所有電影movies = collection.getElementsByTagName('movie')# 打印每部電影的詳細信息for movie in movies: print ('*****Movie*****') if movie.hasAttribute('title'): print ('Title: %s' % movie.getAttribute('title')) type = movie.getElementsByTagName(’type’)[0] print ('Type: %s' % type.childNodes[0].data) format = movie.getElementsByTagName(’format’)[0] print ('Format: %s' % format.childNodes[0].data) rating = movie.getElementsByTagName(’rating’)[0] print ('Rating: %s' % rating.childNodes[0].data) description = movie.getElementsByTagName(’description’)[0] print ('Description: %s' % description.childNodes[0].data)

以上程序執行結果如下：

Root element : New Arrivals*****Movie*****Title: Enemy BehindType: War, ThrillerFormat: DVDRating: PGDescription: Talk about a US-Japan war*****Movie*****Title: TransformersType: Anime, Science FictionFormat: DVDRating: RDescription: A schientific fiction*****Movie*****Title: TrigunType: Anime, ActionFormat: DVDRating: PGDescription: Vash the Stampede!*****Movie*****Title: IshtarType: ComedyFormat: VHSRating: PGDescription: Viewable boredom

完整的 DOM API 文檔請查閱Python DOM APIs。

以上就是Python如何對XML 解析的詳細內容，更多關于Python對XML 解析的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：用Python開發app后端有優勢嗎下一條：python批量處理多DNS多域名的nslookup解析實現

相關文章：

1. python共軛梯度法特征值迭代次數討論2. 利用FastReport傳遞圖片參數在報表上展示簽名信息的實現方法3. H5頁面使用audio標簽播放音頻4. ASP.NET MVC視圖頁使用jQuery傳遞異步數據的幾種方式詳解5. CSS3使用過度動畫和緩動效果案例講解6. ASP.NET MVC通過勾選checkbox更改select的內容7. react axios 跨域訪問一個或多個域名問題8. 詳解php如何合并身份證正反面圖片為一張圖片9. AJAX實現省市縣三級聯動效果10. XHTML 1.0：標記新的開端

排行榜

					
					java必懂的冷知識點之Base64加密與解密
Java GZip 基于內存實現壓縮和解壓的方法
ASP.NET MVC通過勾選checkbox更改select的內容
php設計模式之備忘模式分析【星際爭霸游戲案例】
Java基于redis和mysql實現簡單的秒殺(附demo)
php設計模式之模板模式實例分析【星際爭霸游戲案例】
Python內置函數及功能簡介匯總
5款實用的python 工具推薦
如何基于Python和Flask編寫Prometheus監控
AJAX實現省市縣三級聯動效果
SpringBoot+SpringCache實現兩級緩存(Redis+Caffeine)