Python抓取糗事百科成人版图片

4591566 · 发表于 2015-12-2 11:38:27

　　最近开始学习爬虫，一开始看的是静觅的爬虫系列文章，今天看到糗事百科成人版，心里就邪恶了一下，把图片都爬下来吧，哈哈~
　　虽然后来实现了，但还是存在一些问题，暂且不提，先切入正题吧，没什么好说的，直接上代码如下：
　　环境：Python2.79
　　

1 #coding: utf-8
2 import urllib2
3 import urllib
4 import re
5 import os
6
7 #糗百成人版抓取图片
8 class QBAdult:
9
10    #类初始化
11    def __init__(self):
12       self.baseURL = "http://www.qiubaichengnian.com/"
13    #获取索引页面内容
14    def getPage(self, pageIndex):
15       url = self.baseURL + "index_" + str(pageIndex) + ".html"
16       req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
17                      'Accept':'text/html;q=0.9,*/*;q=0.8',
18                      'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
19                      'Accept-Encoding':'gzip',
20                      'Connection':'close',
21                      'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
22                   }
23       req_timeout = 5
24       request = urllib2.Request(url, None, req_header)
25       reponse = urllib2.urlopen(request, None, req_timeout)
26       #print reponse.read().decode('gbk')
27       return reponse.read().decode('gbk')
28
29    #获取页面所有条目信息，list格式
30    def getContents(self, pageIndex):
31       page = self.getPage(pageIndex)
32       pattern = re.compile('div class="ui-module".*?<a href=.*?>(.*?)</a>.*?<img.*?src="(.*?)"', re.S)
33       items = re.findall(pattern, page)
34       #for item in items:
35          #print item[0], item[1]
36       return items
37
38
39    #获取页面所有图片
40    def getAllImgs(self, items):
41
42       images = []
43       for item in items:
44          images.append(item[1])
45       return images
46
47
48    #保存多张图片
49    def saveAllImg(self, images, n, name):
50       number = 1
51       print u"--------------正在保存第", n , u"页美女图片-------------"
52       for imageURL in images:
53          splitPath = imageURL.split('.')
54          fTail = splitPath.pop()
55          fileName = name + "/" + str(n) + "-" + str(number) + "." + fTail
56          self.saveImg(imageURL, fileName)
57          number += 1
58
59
60    #传入图片地址，文件名，保存单张图片
61    def saveImg(self, imageURL, fileName):
62       u = urllib.urlopen(imageURL)
63       data = u.read()
64       f = open(fileName, 'wb')
65       f.write(data)
66       print u"正在保存美女图片", fileName
67       f.close()
68
69    #创建新目录
70    def mkdir(self, path):
71       path = path.strip()
72       #判断是否存在
73       isExists = os.path.exists(path)
74       if not isExists:
75          print u"新建名字为", path, u"的文件夹"
76          os.makedirs(path)
77          return True
78       else:
79          #如果目录存在则不创建，并提示目录已存在
80          print u"名为", path, u"的文件夹已经创建成功"
81          return False
82
83
84    def savePageInfos(self, start, end):
85       fileName = "beautifull"
86       #获取一页内容,存入beautifull文件夹
87       self.mkdir(fileName)
88       for i in range(start, end+1):
89          print u"正在保存第", i, "页的美女图片"
90          contents = self.getContents(i)
91          images = self.getAllImgs(contents)
92          self.saveAllImg(images, i, fileName)
93
94
95 qAdult = QBAdult()
96 qAdult.savePageInfos(1, 301)
　　
　　其中16-23行的代码是后来出现IOERROR以及超时等错误后加上的，但是这种方法只是治标不治本，时不时程序还会停止，错误如下：

　　小规模抓取图片，几百页抓取会出现如上问题，我还没有找到什么原因。。。。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Python抓取糗事百科成人版图片

浏览过的版块

扫码加入运维网微信交流群