使用python的lxml解析html

gqinvs 发表于 2017-5-4 10:31:13

首先是安装lxml
doc.xpath()返回一个满足条件的list

# coding=gb2312
from lxml import *
import lxml.html
import urllib2
import lxml.html as H
def getjarinfo(url):
c=urllib2.urlopen(url)
f=c.read()
doc = H.document_fromstring(f)
tables=doc.xpath("//table[@id='xiazai']")
pinpais=doc.xpath("//td[@id='pinpai']")
jixings=doc.xpath("//div[@id='jixing']")
jars = doc.xpath("//table[@id='xiazai']//tr/td/a")
for j in range(len(pinpais)):
print jars.get('href')
print pinpais.text_content()
print jixings.text_content()
e=doc.xpath(u"//div" % u"游戏介绍")
describe=e.getnext().text_content()
#r = doc.xpath("//table[@id='xiazai']//tr/td/a")
#jarurl=r.get('href')
if __name__ == '__main__':
url='http://game.3533.com/game/30862.htm'
getjarinfo(url)

页: [1]

运维网's Archiver

使用python的lxml解析html