设为首页 收藏本站
查看: 1283|回复: 0

[经验分享] Python网页爬虫

[复制链接]

尚未签到

发表于 2017-4-24 10:02:40 | 显示全部楼层 |阅读模式
  1:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
#filename:splider.py
#author:wfu(fuweilin@hotmail.com)
from spdUtility import PriorityQueue,Parser
import urllib2
import sys
import os

def updatePriQueue( priQueue, url ):
"更新优先级队列"
extraPrior = url.endswith('.html') and 2 or 0 #这里优先下载以html结尾的url
extraMyBlog = 'www.kgblog.net' in url and 5 or 0 #优先抓取含有指定内容的网页,竞价抓取排名??
item = priQueue.getitem(url)
if item :
newitem = ( item[0]+1+extraPrior+extraMyBlog, item[1] )
priQueue.remove(item)
priQueue.push( newitem )
else :
priQueue.push( (1+extraPrior+extraMyBlog,url) )
def getmainurl(url):
"获得该url的主站地址,用于添加在相对url地址的开头"
ix = url.find('/',len('http://') )
if ix > 0 :
return url[:ix]
else :
return url
def analyseHtml(url,html, priQueue,downlist):
"分析html的超链接,并更新优先级队列"
p = Parser()
try :
p.feed(html)
p.close()
except:
return
mainurl = getmainurl(url)
for k, v in p.anchors.items():
for u in v :
if not u.startswith('http://'):  #处理相对地址的url
u = mainurl + u      
if not downlist.count(u) :    #如果该url已经下载,就不处理了
updatePriQueue( priQueue, u )
def downloadUrl(id, url, priQueue , downlist,downFolder):
"下载指定url内容,并分析html超链接"
downFileName = downFolder+'/%d.html' % (id,)
print 'downloading',url,'as', downFileName ,
try:
fp = urllib2.urlopen(url)
except:
print '[ failed ]'
return False
else :
print '[ success ]'
downlist.push( url )  #把已下载的url添加到列表中
op = open(downFileName,"wb")
html = fp.read()
unicode(html,"gb18030","ignore").encode("utf8");
op.write( html )
op.close()
fp.close()
analyseHtml(url,html,priQueue,downlist)
return True
def spider(beginurl, pages,downFolder):
"爬虫主程序,循环从优先级队列中取出最高优先级的结点处理"
priQueue = PriorityQueue()
downlist = PriorityQueue() #已下载url的集合,防止重复下载
priQueue.push( (1,beginurl) )
i = 0
while not priQueue.empty() and i < pages :
k, url = priQueue.pop()
if downloadUrl(i+1, url, priQueue , downlist,downFolder):
i += 1
print '\nDownload',i,'pages, Totally.'
def main():
"主函数,设定相关参数:开始url,抓取的网页数目,保存的文件夹"
beginurl = 'http://www.csdn.net'  #开始抓取的URL地址
pages = 10   #抓取网页的数目
downloadFolder = './down' #指定保存网页的文件夹
if not os.path.isdir( downloadFolder ):
os.mkdir( downloadFolder )
spider( beginurl, pages, downloadFolder)
if __name__ == '__main__':
main()


  

  2:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
#filename:spdUtility.py
#author:wfu(fuweilin@hotmail.com)
import bisect
import string
import htmllib
import formatter
class PriorityQueue(list):
"优先级队列,用于存储url,及它的优先级"
def __init__(self):
list.__init__(self)
self.map  =  {}
def push(self, item):
#  按顺序插入,防止重复元素;若要按升序排列,可使用bisect.insort_left
if  self.count(item)  ==  0:
bisect.insort(self,  item)
self.map[  item[1]  ]  =  item
def pop(self):
r  =  list.pop(self)
del  self.map[  r[1]  ]
return  r
def getitem(self,url):
if  self.map.has_key(  url  ):
return  self.map[url]
else  :
return  None
def empty(self):
return  len(self)  ==  0
def remove(self,item):
list.remove(self,  item)
del  self.map[  item[1]  ]
def count(self,item):
if len(self)  ==  0  :
return  0
#二分查找
left = 0
right =  len(self)-1
mid  =  -1
while  left  <=  right:
mid  =  (left+right)/2
if  self[mid]  <  item  :
left  =  mid  +  1
elif  self[mid]  >  item  :
right  =  mid  -1
else  :
break
return  self[mid]  ==  item  and  1  or  0

class Parser(htmllib.HTMLParser):
#HTML分析类  
def  __init__(self,  verbose=0):
self.anchors  =  {}
f  =  formatter.NullFormatter()
htmllib.HTMLParser.__init__(self,  f,  verbose)
def  anchor_bgn(self,  href,  name,  type):
self.save_bgn()
self.anchor  =  href
def  anchor_end(self):
text  =  string.strip(self.save_end())
if  self.anchor  and  text:
self.anchors[text]  =  self.anchors.get(text,  [])  +  [self.anchor]

def main():  #just  for  test
pq  =  PriorityQueue()
#  add  items  out  of  order
pq.push(  (1,'http://www.baidu.com')  )
pq.push(  (2,'http://www.sina.com')  )
pq.push(  (3,'http://www.google.com')  )
pq.push(  (1,'http://www.163.com')  )
item  =  pq.getitem('http://www.sina.com')
print  item
print  pq.count(item)
pq.remove(  item  )
print  pq.count(item)
#  print  queue  contents
while  not  pq.empty():
print  pq.pop()
if __name__ == '__main__':
main()



  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-368495-1-1.html 上篇帖子: 服务器暂时无法响应您的请求 500 Internal Server Error 下篇帖子: python 分析日志
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表