设为首页 收藏本站
查看: 750|回复: 0

[经验分享] 【python】网络爬虫抓取图片

[复制链接]

尚未签到

发表于 2015-12-2 13:45:14 | 显示全部楼层 |阅读模式
  利用python抓取网络图片的步骤:
  1.根据给定的网址获取网页源代码
  2.利用正则表达式把源代码中的图片地址过滤出来
  3.根据过滤出来的图片地址下载网络图片
  
  今天我们用http://www.umei.cc/作为事例,教大家爬取美女图片:
  1:打开http://www.umei.cc/
  2:打开网页源代码,找到图片的正则规则:
DSC0000.png
  3:开始爬取



#-*-coding:utf-8-*-
# 正则
import re
# 网络交互
import requests
# 操作系统功能
import os
# 定义一个类
class Spider:
#定义一个函数
def savePageInfo(self, _url, _position, _regX):
# 要爬的网址
url = _url
# 本地地址
position = _position
     # 获取网页源代码
html = requests.get(url).text

# 正则
regX = _regX
pic_url = re.findall(regX,html,re.S)
i = 0
for each in pic_url:
pic = requests.get( each )
print  url + each
# 如果文件夹不存在,则创建一个文件夹
if not os.path.isdir(position):
os.makedirs(position)
fp = open( position+str(i)+'.jpg', 'wb' )
fp.write(pic.content)
# print position+each
            fp.close()
i+=1

#===================网页爬取图片========================
position_end = ''
# 要爬的网址
url = 'http://www.umei.cc/' + position_end
# 本地地址
position = '/Users/edison/Desktop/1/' + position_end
# 正则
regX = '_blank\'><img src=(.*?) t'
#参数 url, 储存位置, 爬取的正则
spider = Spider()
spider.savePageInfo(url, position, regX)
  
  三分钟学会,如囊中取物。
  工具:PyCharm
  
  
  
  MT.Team

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-146372-1-1.html 上篇帖子: Python中type构造函数参数说明 下篇帖子: Python 反编译工具uncompyle2
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表