使用Python爬取糗事百科热门文章

zlzyp 发表于 2018-8-6 11:16:01

#!/usr/bin/python　　
#coding:utf8
　　
"""
　　
爬取糗事百科热门文章
　　
"""
　　

　　
import urllib2
　　
import re
　　

　　
#模拟浏览器访问，否则无法访问
　　
user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
　　

　　
#匹配作者，内容和认为段子好笑的人数
　　
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)
　　

　　
n = 1
　　
for i in range(0,35):
　　

　　
url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
　　

　　
request = urllib2.Request(url, headers={"User-Agent":user_agent})
　　
response = urllib2.urlopen(request)
　　
response = response.read()
　　

　　
paragraph = regex1.findall(response)
　　

　　
for i in paragraph:
　　
   author = i
　　
   text = re.sub('<br/>', '\n', i)
　　
   count = i
　　
   print("作者：%s" %(author))
　　
   print("好笑：%s" %(count))
　　
   print("内容：%s" %(text))
　　
   print("\n")
　　
   #注释下面三行就一次性显示所有文章
　　
   q = raw_input("退出请输入q/Q，继教看请直接回车：")
　　
   if q == "q" or q == "Q":
　　
         break
　　
if q == "q" or q == "Q":
　　
         break
　　
n += 1

页: [1]

运维网's Archiver

使用Python爬取糗事百科热门文章