依然饭跑跑 发表于 2018-8-8 10:03:05

Python学习--xml-ElementTree

  当你需要解析和处理 XML 的时候,Python 表现出了它 “batteries included” 的一面。 标准库 中大量可用的模块和工具足以应对 Python 或者是 XML 的新手。
  ElementTree 生来就是为了处理 XML ,它在 Python 标准库中有两种实现。一种是纯 Python 实现例如 xml.etree.ElementTree ,另外一种是速度快一点的 xml.etree.cElementTree 。
  从 Python 3.3 开始,ElementTree 模块会自动寻找可用的 C 库来加快速度。所以只需要 importxml.etree.ElementTree
  XML 是一种分级的数据形式,所以最自然的表示方法是将它表示为一棵树。ET 有两个对象来实现这个目的 - ElementTree 将整个 XML 解析为一棵树, Element 将单个结点解析为树。如果是整个文档级别的操作(比如说读,写,找到一些有趣的元素)通常用 ElementTree 。单个 XML 元素和它的子元素通常用 Element 。
  eg:
  xm.xml
<data>  
    <country name="Liechtenstein">
  
      <rank updated="yes">2</rank>
  
      <year>2023</year>
  
      <gdppc>141100</gdppc>
  
      <neighbor direction="E" name="Austria" />
  
      <neighbor direction="W" name="Switzerland" />
  
    </country>
  
    <country name="Singapore"></country>
  
</data>
  加载并且解析这个 XML :
from xml.etree import ElementTree as et  
tree = et.parse('xm')
  
root = tree.getroot()      #获取xml文件的根节点
  
print(root)
  
print(root.tag)
  

  
<Element 'data' at 0x00A28750>
  
data
# 遍历XML文档的第二层  
for child in root:
  
    # 第二层节点的标签名称和标签属性
  
    print(child.tag, child.attrib)
  
    # 遍历XML文档的第三层
  
    for i in child:
  
      # 第二层节点的标签名称和内容
  
      print(i.tag,i.text)
  我们可以用一个简单的递归获取 XML 中的任何元素。然而,因为这个操作比较普遍,ET 提供了一些有用的工具来简化操作
  遍历所有的元素,然后检验有没有你想要的。ET 可以让这个过程更便捷。 iter 方法接受一个标签名字,然后只遍历那些有指定标签的元素:
from xml.etree import ElementTree as ET  
############ 解析方式一 ############
  
"""
  
# 打开文件,读取XML内容
  
str_xml = open('xo.xml', 'r').read()
  

  
# 将字符串解析成xml特殊对象,root代指xml文件的根节点
  
root = ET.XML(str_xml)
  
"""
  
############ 解析方式二 ############
  
# 直接解析xml文件
  
tree = ET.parse("xo.xml")
  
# 获取xml文件的根节点
  
root = tree.getroot()
  

  
### 操作
  

  
# 顶层标签
  
print(root.tag)
  

  
# 遍历XML中所有的year节点
  
for node in root.iter('year'):
  
    # 节点的标签名称和内容
  
    print(node.tag, node.text)
  修改节点内容
  由于修改的节点时,均是在内存中进行,其不会影响文件中的内容。所以,如果想要修改,则需要重新将内存中的内容写到文件。
from xml.etree import ElementTree as ET  

  
############ 解析方式一 #############
  
打开文件,读取XML内容
  
str_xml = open('xm.xml', 'r').read()
  
# 将字符串解析成xml特殊对象,root代指xml文件的根节点
  
root = ET.XML(str_xml)
  
############ 操作 ############
  

  
print(root.tag)
  
# 循环所有的year节点
  
for node in root.iter('year'):
  
    # 将year节点中的内容自增一
  
    new_year = int(node.text) + 1
  
    node.text = str(new_year)
  
    # 设置属性
  
    node.set('name', 'alex')
  
    node.set('age', '18')
  

  
    # 删除属性
  
    del node.attrib['name']
  
############ 保存文件 ############
  
tree = ET.ElementTree(root)
  
tree.write("newnew.xml", encoding='utf-8')
from xml.etree import ElementTree as ET  

  
############ 解析方式二 #############
  
直接解析xml文件
  
tree = ET.parse("xo.xml")
  
# 获取xml文件的根节点
  
root = tree.getroot()
  

  
############ 操作 #############
  
顶层标签print(root.tag)
  
# 循环所有的year节点
  
for node in root.iter('year'):
  
    # 将year节点中的内容自增一
  
    new_year = int(node.text) + 1
  
    node.text = str(new_year)
  
    # 设置属性
  
    node.set('name', 'alex')
  
    node.set('age', '18')
  
    # 删除属性
  
    del node.attrib['name']
  

  
############ 保存文件 ############
  
tree.write("newnew.xml", encoding='utf-8')
  删除节点
# 顶层标签  
print(root.tag)
  

  
# 遍历data下的所有country节点
  
for country in root.findall('country'):
  
    # 获取每一个country节点下rank节点的内容
  
    rank = int(country.find('rank').text)
  
      if rank > 50:
  
            # 删除指定country节点
  
            root.remove(country)
  

  

  
############ 保存文件 ############
  
还是前面那两种方式
  创建XML文档
from xml.etree import ElementTree as ET  

  
# 创建根节点
  
root = ET.Element("famliy")
  

  
# 创建节点大儿子
  
son1 = ET.Element('son', {'name': '儿1'})
  

  
# 创建小儿子
  
son2 = ET.Element('son', {"name": '儿2'})
  

  
# 在大儿子中创建两个孙子
  
grandson1 = ET.Element('grandson', {'name': '儿11'})
  
grandson2 = ET.Element('grandson', {'name': '儿12'})
  
son1.append(grandson1)
  
son1.append(grandson2)
  

  
# 把儿子添加到根节点中
  
root.append(son1)
  
root.append(son1)
  

  
tree = ET.ElementTree(root)
  
tree.write('oooo.xml',encoding='utf-8', short_empty_elements=False)
  创建方式二:
from xml.etree import ElementTree as ET  

  
# 创建根节点
  
root = ET.Element("famliy")
  

  
# 创建大儿子
  
son1 = root.makeelement('son', {'name': '儿1'})
  

  
# 创建小儿子
  
son2 = root.makeelement('son', {"name": '儿2'})
  

  
# 在大儿子中创建两个孙子
  
grandson1 = son1.makeelement('grandson', {'name': '儿11'})
  
grandson2 = son1.makeelement('grandson', {'name': '儿12'})
  

  
son1.append(grandson1)
  
son1.append(grandson2)
  

  
# 把儿子添加到根节点中
  
root.append(son1)
  
root.append(son1)
  

  
tree = ET.ElementTree(root)
  
tree.write('oooo.xml',encoding='utf-8', short_empty_elements=False)
  方式三:
from xml.etree import ElementTree as ET  

  
# 创建根节点
  
root = ET.Element("famliy")
  

  
# 创建节点大儿子
  
son1 = ET.SubElement(root, "son", attrib={'name': '儿1'})
  

  
# 创建小儿子
  
son2 = ET.SubElement(root, "son", attrib={"name": "儿2"})
  

  
# 在大儿子中创建一个孙子
  
grandson1 = ET.SubElement(son1, "age", attrib={'name': '儿11'})
  
grandson1.text = '孙子'
  

  
et = ET.ElementTree(root)#生成文档对象
  
et.write("test.xml", encoding="utf-8", xml_declaration=True, short_empty_elements=False)
  由于原生保存的XML时默认无缩进,如果想要设置缩进的话, 需要修改保存方式:
from xml.etree import ElementTree as ET  
from xml.dom import minidom
  

  
def prettify(elem):
  
    """将节点转换成字符串,并添加缩进。
  
    """
  
    rough_string = ET.tostring(elem, 'utf-8')
  
    reparsed = minidom.parseString(rough_string)
  
    return reparsed.toprettyxml(indent="\t")
  

  

  
    按上面方式创建文档内容
  

  

  
raw_str = prettify(root)
  

  
f = open("xxxoo.xml",'w',encoding='utf-8')
  
f.write(raw_str)
  
f.close()
页: [1]
查看完整版本: Python学习--xml-ElementTree