设为首页 收藏本站
查看: 820|回复: 0

[经验分享] Python爬虫抓取csdn博客

[复制链接]

尚未签到

发表于 2018-8-4 12:50:13 | 显示全部楼层 |阅读模式
#-*- encoding: utf-8 -*-  
'''
  
Created on 2014-09-18 21:10:39
  

  
@author: Mangoer
  
@email: 2395528746@qq.com
  
'''
  

  
import urllib2
  
import re
  
from bs4 import BeautifulSoup
  
import random
  
import time
  

  
class CSDN_Blog_Spider:
  
     def __init__(self,url):
  

  
          print '\n'
  
          print('已启动网络爬虫。。。')
  
          print  '网页地址: ' + url
  

  
          user_agents = [
  
                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
  
                    'Opera/9.25 (Windows NT 5.1; U; en)',
  
                    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
  
                    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
  
                    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
  
                    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
  
                    "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
  
                    "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",
  
                   ]
  
          # use proxy ip
  
          # ips_list = ['60.220.204.2:63000','123.150.92.91:80','121.248.150.107:8080','61.185.21.175:8080','222.216.109.114:3128','118.144.54.190:8118',
  
          #           '1.50.235.82:80','203.80.144.4:80']
  

  
          # ip = random.choice(ips_list)
  
          # print '使用的代理ip地址: ' + ip
  

  
          # proxy_support = urllib2.ProxyHandler({'http':'http://'+ip})
  
          # opener = urllib2.build_opener(proxy_support)
  
          # urllib2.install_opener(opener)
  

  
          agent = random.choice(user_agents)
  

  
          req = urllib2.Request(url)
  
          req.add_header('User-Agent',agent)
  
          req.add_header('Host','blog.csdn.net')
  
          req.add_header('Accept','*/*')
  
          req.add_header('Referer','http://blog.csdn.net/mangoer_ys?viewmode=list')
  
          req.add_header('GET',url)
  
          html = urllib2.urlopen(req)
  
          page = html.read().decode('gbk','ignore').encode('utf-8')
  

  
          self.page = page
  
          self.title = self.getTitle()
  
          self.content = self.getContent()
  
          self.saveFile()
  

  

  
     def printInfo(self):
  
          print('文章标题是:   '+self.title + '\n')
  
          print('内容已经存储到out.txt文件中!')
  

  
     def getTitle(self):
  
          rex = re.compile('<title>(.*?)</title>',re.DOTALL)
  
          match = rex.search(self.page)
  
          if match:
  
                return match.group(1)
  

  
          return 'NO TITLE'
  

  
     def getContent(self):
  
          bs = BeautifulSoup(self.page)
  
          html_content_list = bs.findAll('div',{'id':'article_content','class':'article_content'})
  
          html_content = str(html_content_list[0])
  

  
          rex_p = re.compile(r'(?:.*?)>(.*?)<(?:.*?)',re.DOTALL)
  
          p_list = rex_p.findall(html_content)
  

  

  
          content = ''
  
          for p in p_list:
  
               if p.isspace() or p == '':
  
                    continue
  
               content = content + p
  
          return content
  

  
     def saveFile(self):
  

  
          outfile = open('out.txt','a')
  
          outfile.write(self.content)
  

  
     def getNextArticle(self):
  
          bs2 = BeautifulSoup(self.page)
  
          html_nextArticle_list = bs2.findAll('li',{'class':'prev_article'})
  
          # print str(html_nextArticle_list[0])
  
          html_nextArticle = str(html_nextArticle_list[0])
  
          # print html_nextArticle
  

  
          rex_link = re.compile(r'<a href=\"(.*?)\"',re.DOTALL)
  
          link = rex_link.search(html_nextArticle)
  
          # print link.group(1)
  

  
          if link:
  
               next_url = 'http://blog.csdn.net' + link.group(1)
  
               return next_url
  

  
          return None
  

  

  

  

  
class Scheduler:
  
     def __init__(self,url):
  
          self.start_url = url
  

  
     def start(self):
  
          spider = CSDN_Blog_Spider(self.start_url)
  
          spider.printInfo()
  

  

  
          while True:
  
               if spider.getNextArticle():
  
                    spider = CSDN_Blog_Spider(spider.getNextArticle())
  
                    spider.printInfo()
  
               elif spider.getNextArticle() == None:
  
                    print 'All article haved been downloaded!'
  
                    break
  

  
               time.sleep(10)
  

  

  

  
#url = input('请输入CSDN博文地址:')
  
url = "http://blog.csdn.net/mangoer_ys/article/details/38427979"
  

  
Scheduler(url).start()

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-546492-1-1.html 上篇帖子: shell、perl和python的简单对比 下篇帖子: Python时间,日期,时间戳之间转换
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表