设为首页 收藏本站
查看: 2104|回复: 0

[经验分享] python爬虫之BeautifulSoup

[复制链接]

尚未签到

发表于 2017-7-1 20:23:02 | 显示全部楼层 |阅读模式
  爬虫有时候写正则表达式会有假死现象
  就是正则表达式一直在进行死循环查找
  例如:https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac-11eb-4d67-b946-a73ffb51e4f3/netcpu100
  所以一般在解析网页的时候可以用BeautifulSoup库来解决网页的正则表达式
  网上对于BeautifulSoup的解释太复杂了
  我就只是选取了我爬虫需要的部分来学习,其他的有需要再去学习,没需要就不浪费时间
  最起码省心了很多
  解释在注释里面都有了
  一句一句的打印出来看就会明白的



1 #!/usr/bin/python3.4
2 # -*- coding: utf-8 -*-
3 import urllib.request
4 from bs4 import BeautifulSoup
5
6 if __name__ == '__main__':
7     url = "http://www.lenggirl.com/"
8     headers = {
9         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
10         'Accept': 'text/html;q=0.9,*/*;q=0.8',
11         'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
12         'Accept-Encoding': 'gzip',
13         'Connection': 'close',
14         'Referer': None
15     }
16     data = urllib.request.urlopen(url).read()
17     # ('UTF-8')('unicode_escape')('gbk','ignore')
18     data = data.decode('UTF-8', 'ignore')
19     # 初始化网页
20     soup = BeautifulSoup(data, "html.parser")
21     # 打印整个网页
22     html = soup.prettify()
23     # 打印<head>...</head>
24     head = soup.head
25     # 打印<body>...</body>
26     body = soup.body
27     # 打印第一个<p>...</p>
28     p = soup.p
29     # 打印p的内容
30     p_string = soup.p.string
31     # soup.p.contents[0]为Aug 22, 2016
32     # soup.p.contents为[' Aug 22, 2016\n                        ']
33     p_string = soup.p.contents[0]
34     # 将body里面的所有头打印出来
35     for child in soup.body.children:
36         #print(child)
37         pass
38     # 将所有的<a>...</a>和<p>...</p>打印出来
39     a_and_p = soup.find_all(["a","p"])
40     # 找到<a>...</a>下所有的网址
41     for myimg in soup.find_all('a'):
42         img_src = myimg.get('href')
43         #print(img_src)
44     # 找到<a>...</a>下类为class_='a'下面的<img>...</img>里面的src
45     for myimg in soup.find_all('a', class_='a'):
46         img_src = myimg.find('img').get('src')
47     # 网页所有信息
48     #print(html)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-390174-1-1.html 上篇帖子: 陨石坑之webapi使用filter 下篇帖子: SignalR 2.0入门
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表