设为首页 收藏本站
查看: 1079|回复: 0

[经验分享] Python学习笔记__12.11章 HTML Parser

[复制链接]

尚未签到

发表于 2018-8-9 10:16:37 | 显示全部楼层 |阅读模式
  1、概览
  HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。
  Python提供了HTMLParser来非常方便地解析HTML。而且,HTMLParse类里的函数名是不能改的
  from html.parser import HTMLParser
  from html.entities import name2codepoint
  class MyHTMLParser(HTMLParser):
  # 处理开始标签,比如<div>;这里的attrs获取到的是属性列表,属性以元组的方式展示
  # <time datetime=&quot;2018&quot;>,tag标签是time。args是[[&quot;datetime&quot;,&quot;2018&quot;]]
  def handle_starttag(self, tag, attrs):
  print('<%s>' % tag)
  def handle_endtag(self, tag): # 处理结束标签,比如</div>
  print('</%s>' % tag)
  def handle_startendtag(self, tag, attrs):  # 处理自己结束的标签,如<img />
  print('<%s/>' % tag)
  def handle_data(self, data): #处理数据,标签之间的文本
  print(data)
  def handle_comment(self, data): # 打印注释
  print('<!--', data, '-->')
  def handle_entityref(self, name): # 打印<body>中,没有被标签圈起来的内容 HTML&nbsp;tutorial...
  print('&%s;' % name)
  def handle_charref(self, name): # 打印特殊符号 &nbsp;--》 ?
  print('&#%s;' % name)
  parser = MyHTMLParser()
  # feed(str),为解释器提供文本。
  parser.feed('''<html>
  <head></head>
  <body>
  <!-- test html parser -->
  <p>Some <a href=\&quot;#\&quot;>html</a> HTML&nbsp;tutorial...<br>END</p>
  </body></html>''')
  2、扩展文档
  Python爬虫常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)
  3、例子
  1、找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。
  方法一:小范围匹配
  from html.parser import HTMLParser
  from html.entities import name2codepoint
  from urllib import request
  import re
  class MyHTMLParser(HTMLParser):
  a_t1 = False # 用于匹配状态的判断
  a_t2 = False
  a_t3 = False
  def __init__(self): # 初始化实例
  HTMLParser.__init__(self)
  self.information = []
  self.information_all = {}
  def handle_starttag(self, tag, attrs): # attrs是list['list']的存储方式
  def _attr(attrlist, attrname): # 接受的参数都是 attrs,和‘class’
  for attr in attrlist:  # attrs 是[[],[]]类的,那attr就是里面的list
  if attr[0] == attrname: #如果匹配,返回attr[1]
  return attr[1]
  return None
  if tag==&quot;time&quot; : # 如果条件对上了,修改匹配状态为True
  self.a_t1 = True
  elif tag==&quot;span&quot; and _attr(attrs, 'class')==&quot;event-location&quot;:
  self.a_t2 = True
  elif tag==&quot;h3&quot; and _attr(attrs, 'class')==&quot;event-title&quot;:
  self.a_t3 = True
  def handle_data(self, data):
  if self.a_t1 is True:
  if re.match(r'^\s\d{4}', data): # 取data数据
  self.information.append(dict(year=data))
  else:
  self.information.append(dict(day=data))
  elif self.a_t2 is True:
  self.information.append(dict(event_location=data)) 取地址数据
  elif self.a_t3 is True:
  self.information.append(dict(event_title=data)) # 取标题数据
  def handle_endtag(self, tag): # 将匹配状态重置,为后续继续检索做准备
  if tag == &quot;time&quot;:
  self.a_t1 = False
  elif tag ==&quot;span&quot;:
  self.a_t2 = False
  elif tag == &quot;h3&quot;:
  self.a_t3 = False
  def parseHTML(html_str):
  parser = MyHTMLParser()
  parser.feed(html_str) #接受HTML并解析
  for i, val in enumerate(parser.information): #enumerate将list变为索引-元素对。遍历打印value
  i +=  1
  print(val)
  if i%4==0:
  print('--------------------------------------------')
  URL = 'https://www.python.org/events/python-events/'
  with request.urlopen(URL, timeout=4) as f:  # 收集页面信息
  data = f.read()
  parseHTML(data.decode('utf-8')) #将收到的信息解码,并传给parseHTML()调用
  方法二:大范围匹配
  from html.parser import HTMLParser
  from urllib import request
  import re
  class MyHTMLParser(HTMLParser):
  flag = 0
  res = []
  is_get_data = 0
  def handle_starttag(self, tag, attrs):
  # 首先找到包裹事件的元素
  if tag == 'ul':
  for attr in attrs:
  if re.match(r'list-recent-events', attr[1]):
  self.flag = 1
  # 处理包裹事件名称的a元素
  if tag == 'a' and self.flag == 1:
  self.is_get_data = 'title'
  # 处理时间的time元素
  if tag == 'time' and self.flag == 1:
  self.is_get_data = 'time'
  # 处理包裹地点的time元素
  if tag == 'span' and self.flag == 1:
  self.is_get_data = 'addr'
  def handle_endtag(self, tag):
  if self.flag == 1 and tag == 'ul':
  self.flag = 0
  def handle_data(self, data):
  if self.is_get_data and self.flag == 1:
  if self.is_get_data == 'title':
  #获得title,即会议名时,给res添加一个新dict:res 由[] 变为 [{'title':'PyCascades 2018'}],此时len(self.res)==1
  self.res.append({self.is_get_data: data})
  else:
  # 获得addr,time这样的其它属性时,相当于res[0][time]=data。
  # 这是将time=data键值对加到了此前的那个字典里,现在len(self.res)依然==1
  self.res[len(self.res) - 1][self.is_get_data] = data
  self.is_get_data = None
  parser = MyHTMLParser()
  with request.urlopen('https://www.python.org/events/python-events/') as f:
  data = f.read().decode('utf-8')
  parser.feed(data)
  for item in MyHTMLParser.res:
  print('---------------')
  for k,v in item.items():
  print(&quot;%s : %s&quot; % (k,v))

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-549025-1-1.html 上篇帖子: 安装python 下篇帖子: python基本数据类型(四)-集合与运算符-python3笔记
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表