python中用xpath和xml.dom解析html

cvlig 发表于 2015-12-3 11:52:25

　　本次推荐的组合为xml.dom.minidom和xpath。其中xml.dom.minidom为python的标准库，无须安装。xpath为Google出品的开源项目py-dom-xpath。
　　安装py-dom-xpath:

[*]从https://py-dom-xpath.googlecode.com/files/py-dom-xpath-0.1.tar.gz下载压缩包，解压。
[*]CD到py-dom-xpath-0.1目录
[*]执行命令：C:\python27\python setup.py install
[*]命令执行完成后，此目录多了两个文件夹，分别为build和dist，将/build/lib/文件夹下的xpath目录拷贝至C:\Python27\Lib目录，即安装完成。
　　测试用html文件，simple.html，内容如下：
　　

1 <!DOCTYPE html>
2 <html>
3 <head>
4 <title>This is a simple html file</title>
5 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
6 </head>
7 <body>
8 <div>
9 <div>a</div>
10 <div>b</div>
11 <div>c</div>
12 </div>
13 </body>
14 </html>
　　
　　python文件：
　　

1 import xpath
2 import xml.dom.minidom
3
4 xml = xml.dom.minidom.parse('d:\\GitHub\\python27\\simple.html')
5 doc = xml.documentElement
6 result = xpath.find('//div',doc).toxml()
7 print(result)
　　
　　值得注意的一个问题是，simple.html的第一行，即文档头<!DOCTYPE html>中的‘DOCTYPE’必须大写，否则xml.dom.minidom会解析失败。下一篇文章，将介绍另一个解析html的库，不存在此问题。
　　
　　
http://images.cnitblog.com/blog/708049/201412/290117509661307.jpg

页: [1]

运维网's Archiver

python中用xpath和xml.dom解析html