设为首页 收藏本站
查看: 1743|回复: 0

[经验分享] python抓取网页图片python爬虫

[复制链接]

尚未签到

发表于 2017-4-22 12:28:44 | 显示全部楼层 |阅读模式
  python抓取网页图片示例(python爬虫)



-*- encoding: utf-8 -*-
'''
Created on 2014-4-24
@author: Leon Wong
'''
# www.jbxue.com
import urllib2
import urllib
import re
import time
import os
import uuid
#获取二级页面url
def findUrl2(html):
re1
= r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/'
url2list
= re.findall(re1,html)
url2lstfltr
= list(set(url2list))
url2lstfltr.sort(key
=url2list.index)
#print url2lstfltr
return url2lstfltr
#获取html文本
def getHtml(url):
html
= urllib2.urlopen(url).read().decode('utf-8')#解码为utf-8
return html
#下载图片到本地
def download(html_page , pageNo):   
#定义文件夹的名字
x = time.localtime(time.time())
foldername
= str(x.__getattribute__("tm_year"))+"-"+str(x.__getattribute__("tm_mon"))+"-"+str(x.__getattribute__("tm_mday"))
re2
=r'http://photos.tuchong.com/.+/f/.+\.jpg'
imglist
=re.findall(re2,html_page)
print imglist
download_img
=None
for imgurl in imglist:
picpath
= 'D:\\TuChong\\%s\\%s'  % (foldername,str(pageNo))
filename
= str(uuid.uuid1())
if not os.path.exists(picpath):
os.makedirs(picpath)               
target
= picpath+"\\%s.jpg" % filename
print "The photos location is:"+target
download_img
= urllib.urlretrieve(imgurl, target)#将图片下载到指定路径中
time.sleep(1)
print(imgurl)
return download_img

# def callback(blocknum, blocksize, totalsize):
#
     '''回调函数
#
     @blocknum: 已经下载的数据块
#
     @blocksize: 数据块的大小
#
     @totalsize: 远程文件的大小
#
     '''
#
     print str(blocknum),str(blocksize),str(totalsize)
#
     if blocknum * blocksize >= totalsize:
#
         print '下载完成'
def quitit():
print "Bye!"
exit(0)
if __name__ == '__main__':
print '''            *****************************************
**    Welcome to Spider for TUCHONG    **
**      Created on 2014-4-24           **
**      @author: Leon Wong             **
*****************************************
'''
pageNo
= raw_input("Input the page number you want to scratch (1-100),please input 'quit' if you want to quit>")
while not pageNo.isdigit() or int(pageNo) > 100 :
if pageNo == 'quit':quitit()
print "Param is invalid , please try again."
pageNo
= raw_input("Input the page number you want to scratch >")
#针对图虫人像模块来爬取
html = getHtml("http://tuchong.com/tags/%E4%BA%BA%E5%83%8F/?page="+str(pageNo))
detllst
= findUrl2(html)
for detail in detllst:
html2
= getHtml(detail)
download(html2,pageNo)
print "Finished."

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-367772-1-1.html 上篇帖子: Google python mimic.py (python 2.7) 下篇帖子: Python入门中文资料
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表