zlzyp 发表于 2018-8-6 11:16:01

使用Python爬取糗事百科热门文章

#!/usr/bin/python  
#coding:utf8
  
"""
  
爬取糗事百科热门文章
  
"""
  

  
import urllib2
  
import re
  

  
#模拟浏览器访问,否则无法访问
  
user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
  

  
#匹配作者,内容和认为段子好笑的人数
  
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)
  

  
n = 1
  
for i in range(0,35):
  

  
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
  

  
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
  
    response = urllib2.urlopen(request)
  
    response = response.read()
  

  
    paragraph = regex1.findall(response)
  

  
    for i in paragraph:
  
      author = i
  
      text = re.sub('<br/>', '\n', i)
  
      count = i
  
      print("作者:%s" %(author))
  
      print("好笑:%s" %(count))
  
      print("内容:%s" %(text))
  
      print("\n")
  
      #注释下面三行就一次性显示所有文章
  
      q = raw_input("退出请输入q/Q,继教看请直接回车:")
  
      if q == "q" or q == "Q":
  
            break
  
    if q == "q" or q == "Q":
  
            break
  
    n += 1
页: [1]
查看完整版本: 使用Python爬取糗事百科热门文章