python实现简单爬虫--爬图片

scuess 发表于 2018-8-11 10:00:57

#!/usr/bin/env python　　
#encoding:utf-8
　　
import urllib
　　
import re
　　
def getHtml(url):
　　
'''获取到url的html内容'''
　　
page = urllib.urlopen(url)
　　
html = page.read()
　　
return html
　　
html1 = getHtml('http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')
　　
# print html1
　　
# print re.findall(r'"objURL":"(.+?\.jpg)"',html1)
　　
def downloadImg(html1):
　　
'''下载页面里的jpg图片'''
　　
reg = r'"objURL":"(.+?\.jpg)"'
　　
#预编译正则表达式提高运行速度
　　
imgreg = re.compile(reg)
　　
urllist = re.findall(imgreg,html1)
　　
num = 0
　　
#for循环遍历下载每个图片
　　
for i in urllist:
　　
urllib.urlretrieve(i,'%s.jpg' % num)
　　
num+=1
　　
downloadImg(html1)

页: [1]

运维网's Archiver

python实现简单爬虫--爬图片