Python 简单爬虫抓取糗事百科

gznz12345 · 发表于 2018-8-8 10:40:44

　　该爬虫主要实现的功能是抓取糗事百科里面的一些段子。
　　urllib2可以用urllib2.openurl中设置Request参数，来修改Header头。如果你访问一个网站，想更改User Agent（可以伪装你的浏览器），你就要用urllib2。
　　urllib支持设置编码的函数，urllib.urlencode,在模拟登陆的时候，经常要post编码之后的参数，所以要想不使用第三方库完成模拟登录，你就需要使用urllib。但由于该网站禁止抓取，只能使用urllib2。
　　BeautifulSoup模块是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。
　　至于其中的一个输入功能，可有可无。经过测试，该爬虫能实现对网站内大部分栏目进行抓取，只要简单修改URL即可。
# coding:utf-8　　
import time
　　
import random
　　
import urllib2
　　
from bs4 import BeautifulSoup
　　#引入 beautifulsoup模块
　　#p = 1
　　#定义页
url = 'http://www.qiushibaike.com/text/page/'　　#定义header
my_headers = [　　
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0',
　　
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)',
　　
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)',
　　
'ELinks/0.12pre5 (textmode; Linux; -)'
　　
]
　　#获取网页内容
def get_con(url, headers):　　
random_header = random.choice(headers)
　　
req = urllib2.Request(url)
　　
req.add_header('User-Agent', random_header)
　　
req.add_header('Host', 'www.qiushibaike.com')
　　
req.add_header(
　　
      'Referer', 'http://www.qiushibaike.com/')
　　
req.add_header('GET', 'url')
　　
content = urllib2.urlopen(req).read()
　　
return content
　　#读取每一条信息
def get_txt(haha):　　
soup = BeautifulSoup(haha)
　　
all_txt = soup.find_all('div', class_="content")
　　
i = 1
　　
for txt in all_txt:
　　
      cont = str(txt)
　　
      head = cont.find(r'class="content"')
　　
      end = cont.find(r'</div', head)
　　
      con = cont[head + 16:end]
　　
      print str(i), con
　　
      i = i + 1
　　
      time.sleep(3)
　　#根据输入的数字，确定打印起始页，如果取消该功能则需要定义p。
page = raw_input("Please input a number:")　　
p = int(page)
　　#使用while循环打印出所有信息
while p < 36:　　
haha = get_con(url + str(p) + '?s=4796159', my_headers)
　　
print get_txt(haha)
　　
print "这是第" + str(p) + "页"
　　
p = p + 1
　　正在学习中，正在不断完善中...

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python 简单爬虫抓取糗事百科

浏览过的版块

扫码加入运维网微信交流群