Python学习笔记__12.11章 HTML Parser

砂拉豆 发表于 2018-8-9 10:16:37

1、概览
　　HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。
　　Python提供了HTMLParser来非常方便地解析HTML。而且，HTMLParse类里的函数名是不能改的
　　from html.parser import HTMLParser
　　from html.entities import name2codepoint
　　class MyHTMLParser(HTMLParser):
　　# 处理开始标签，比如<div>；这里的attrs获取到的是属性列表，属性以元组的方式展示
　　# <time datetime="2018">，tag标签是time。args是[["datetime","2018"]]
　　def handle_starttag(self, tag, attrs):
　　print('<%s>' % tag)
　　def handle_endtag(self, tag): # 处理结束标签,比如</div>
　　print('</%s>' % tag)
　　def handle_startendtag(self, tag, attrs):# 处理自己结束的标签，如<img />
　　print('<%s/>' % tag)
　　def handle_data(self, data): #处理数据，标签之间的文本
　　print(data)
　　def handle_comment(self, data): # 打印注释
　　print('')
　　def handle_entityref(self, name): # 打印<body>中，没有被标签圈起来的内容 HTML tutorial...
　　print('&%s;' % name)
　　def handle_charref(self, name): # 打印特殊符号  --》？
　　print('&#%s;' % name)
　　parser = MyHTMLParser()
　　# feed(str)，为解释器提供文本。
　　parser.feed('''<html>
　　<head></head>
　　<body>
　　
　　<p>Some <a href=\"#\">html</a> HTML tutorial...<br>END</p>
　　</body></html>''')
　　2、扩展文档
　　Python爬虫常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)
　　3、例子
　　1、找一个网页，例如https://www.python.org/events/python-events/，用浏览器查看源码并复制，然后尝试解析一下HTML，输出Python官网发布的会议时间、名称和地点。
　　方法一：小范围匹配
　　from html.parser import HTMLParser
　　from html.entities import name2codepoint
　　from urllib import request
　　import re
　　class MyHTMLParser(HTMLParser):
　　a_t1 = False # 用于匹配状态的判断
　　a_t2 = False
　　a_t3 = False
　　def __init__(self): # 初始化实例
　　HTMLParser.__init__(self)
　　self.information = []
　　self.information_all = {}
　　def handle_starttag(self, tag, attrs): # attrs是list['list']的存储方式
　　def _attr(attrlist, attrname): # 接受的参数都是 attrs，和‘class’
　　for attr in attrlist:# attrs 是[[],[]]类的，那attr就是里面的list
　　if attr == attrname: #如果匹配，返回attr
　　return attr
　　return None
　　if tag=="time" : # 如果条件对上了，修改匹配状态为True
　　self.a_t1 = True
　　elif tag=="span" and _attr(attrs, 'class')=="event-location":
　　self.a_t2 = True
　　elif tag=="h3" and _attr(attrs, 'class')=="event-title":
　　self.a_t3 = True
　　def handle_data(self, data):
　　if self.a_t1 is True:
　　if re.match(r'^\s\d{4}', data): # 取data数据
　　self.information.append(dict(year=data))
　　else:
　　self.information.append(dict(day=data))
　　elif self.a_t2 is True:
　　self.information.append(dict(event_location=data)) 取地址数据
　　elif self.a_t3 is True:
　　self.information.append(dict(event_title=data)) # 取标题数据
　　def handle_endtag(self, tag): # 将匹配状态重置，为后续继续检索做准备
　　if tag == "time":
　　self.a_t1 = False
　　elif tag =="span":
　　self.a_t2 = False
　　elif tag == "h3":
　　self.a_t3 = False
　　def parseHTML(html_str):
　　parser = MyHTMLParser()
　　parser.feed(html_str) #接受HTML并解析
　　for i, val in enumerate(parser.information): #enumerate将list变为索引-元素对。遍历打印value
　　i +=1
　　print(val)
　　if i%4==0:
　　print('--------------------------------------------')
　　URL = 'https://www.python.org/events/python-events/'
　　with request.urlopen(URL, timeout=4) as f:# 收集页面信息
　　data = f.read()
　　parseHTML(data.decode('utf-8')) #将收到的信息解码，并传给parseHTML()调用
　　方法二：大范围匹配
　　from html.parser import HTMLParser
　　from urllib import request
　　import re
　　class MyHTMLParser(HTMLParser):
　　flag = 0
　　res = []
　　is_get_data = 0
　　def handle_starttag(self, tag, attrs):
　　# 首先找到包裹事件的元素
　　if tag == 'ul':
　　for attr in attrs:
　　if re.match(r'list-recent-events', attr):
　　self.flag = 1
　　# 处理包裹事件名称的a元素
　　if tag == 'a' and self.flag == 1:
　　self.is_get_data = 'title'
　　# 处理时间的time元素
　　if tag == 'time' and self.flag == 1:
　　self.is_get_data = 'time'
　　# 处理包裹地点的time元素
　　if tag == 'span' and self.flag == 1:
　　self.is_get_data = 'addr'
　　def handle_endtag(self, tag):
　　if self.flag == 1 and tag == 'ul':
　　self.flag = 0
　　def handle_data(self, data):
　　if self.is_get_data and self.flag == 1:
　　if self.is_get_data == 'title':
　　#获得title,即会议名时，给res添加一个新dict：res 由[] 变为 [{'title':'PyCascades 2018'}],此时len(self.res)==1
　　self.res.append({self.is_get_data: data})
　　else:
　　# 获得addr，time这样的其它属性时，相当于res=data。
　　# 这是将time=data键值对加到了此前的那个字典里，现在len(self.res)依然==1
　　self.res = data
　　self.is_get_data = None
　　parser = MyHTMLParser()
　　with request.urlopen('https://www.python.org/events/python-events/') as f:
　　data = f.read().decode('utf-8')
　　parser.feed(data)
　　for item in MyHTMLParser.res:
　　print('---------------')
　　for k,v in item.items():
　　print("%s : %s" % (k,v))

页: [1]

运维网's Archiver

Python学习笔记__12.11章 HTML Parser