文章来自:http://jordy.easymorse.com/?p=442。
python语言解析xml文件的常用的有两种方式:
* 通过MiniDom库解析xml文件
* 通过ElementTree库解析xml文件
MiniDom方式解析xml
xml文件以data.xml为例,具体操作如下:
data.xml:
<?xml version="1.0" encoding="utf-8"?>
<info>
<intro>保存用户的信息</intro>
<list id='001'>
<head>auto_userone</head>
<name>Jordy</name>
<number>12345678</number>
<age>20</age>
<sex>男</sex>
<hobby>上网</hobby>
</list>
<list id='002'>
<head>auto_usertwo</head>
<name>功夫</name>
<number>34443678</number>
<age>18</age>
<sex>男</sex>
<hobby>功夫</hobby>
</list>
</info>
1. 得到DOM对象
DOM是Document Object Model的简称,它是以对象树来表示一个XML。
import xml.dom.minidom
#得到dom对象
dom = xml.dom.minidom.parse("data.xml")
2. 得到文档元素对象
#得到文档元素对象
root = dom.documentElement #这里得到的是根节点info
#打印根节点的 名字 节点的值 节点类型
print root.nodeName,root.nodeValue,root.nodeType
节点的属性:
每一个节点都有它的nodeName,nodeValue,nodeType属性。nodeName为节点名字。
nodeValue是节点的值,只对文本节点有效。nodeType是节点的类型,现在有以下几种:
‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’
3.子元素、子节点的访问
对于已经知道元素名字的子元素,可以通过使用getElementsByTagName()方法访问,例:
root.getElementsByTagName("intro") #读取intro子元素
返回的结果是一个列表。
如果要得到某元素下的所有子节点,可以使用childNodes属性:
root.childNodes
getElementsByTagName()可以搜索当前元素的所有子元素,包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。
比如:我们想要得到intro元素下的值“保存用户的信息”,实现如下代码:
node = root.getElementsByTagName("intro")[0]
for node in node.childNodes:
if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):
print node.data
这种方式在获取元素的文本时,需要先判断才行,所以使用起来感觉不是太方便。
ElementTree库解析xml文件
ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口,它使用文件名或流对象作为参数,parse()方法会立即解析完整个文档,它返回的对象是整个文档的对象,而不是根元素,如果要获取根元素,可以调用getroot()方法。
使用上述的data.xml文档,通过ElementTree库解析的代码:
import xml.etree.ElementTree as ET
#读取xml文件
def load_xml_file(fileName):
root = ET.parse(fileName).getroot()
#获取文件描述
intro = root.find('intro').text
print intro
#获取所有list节点
all_users = root.findall('list')
#遍历list节点的子元素
for user in all_users:
#得到head节点的文本
head = user.find('head').text
#得到name节点的文本
name = user.find('name').text
#得到sex节点的文本
sex = user.find('sex').text
print head,name,sex
if __name__ == '__main__':
load_xml_file('data.xml')
通过这种方式解析xml文件比起使用minidom库解析xml文件的,操作要方便的多。
运维网声明
1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网 享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com