设为首页 收藏本站
查看: 3852|回复: 0

[经验分享] 使用Python爬虫爬取妹子图图片

[复制链接]

尚未签到

发表于 2018-8-4 08:56:26 | 显示全部楼层 |阅读模式
# -*- coding:utf8 -*-  
# Python:         2.7.8
  
# Platform:       Windows
  
# Author:         wucl
  
# Version:        1.0
  
# Program:        自动下载妹子图的图片并保存到本地
  
# History:        2015.5.31
  
#                 2015.6.2  发现被禁止抓取了,增加了随机的浏览器头部信息,模拟浏览器抓取。
  

  
import urllib2, os, os.path, urllib, random
  
from bs4 import BeautifulSoup
  

  
def get_soup(url):
  
    """
  
    获取网站的soup对象
  
    """
  
    my_headers = [
  
    'Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30',
  
    'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0',
  
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)',
  
    'Opera/9.80 (Windows NT 5.1; U; zh-cn) Presto/2.9.168 Version/11.50',
  
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1',
  
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)']
  
    header={"User-Agent":random.choice(my_headers)}
  
    req=urllib2.Request(url, headers=header)
  
    html=urllib2.urlopen(req).read()
  
    soup=BeautifulSoup(html)
  
    return soup
  

  
def get_pages(url):
  
    """
  
    获取妹子图网站的页数
  
    """
  
    soup=get_soup(url)
  
    nums=soup.find_all('a',class_='page-numbers')
  
    pages=int(nums[-2].text)
  
    return pages
  

  

  
def get_menu(url):
  
    """
  
    获取页面的所有妹子图主题的链接名称和地址,记入列表
  
    """
  
    soup=get_soup(url)
  
    menu=[]
  
    menu_list=soup.find_all('a',target='_blank')
  
    for i in menu_list:
  
        result=i.find_all('img',class_='lazy')
  
        if result:
  
            name=result[0]['alt']
  
            address=i['href']
  
            menu.append([name,address])
  
    return menu
  

  
def get_links(url):
  
    """
  
    获取单个妹子图主题一共具有多少张图片
  
    """
  
    soup=get_soup(url)
  
    all_=soup.find_all('a')
  
    nums=[]
  
    for i in all_:
  
        span=i.find_all('span')
  
        if span:
  
            nums.append(span[0].text)
  
    return nums[-2]
  

  
def get_image(url,filename):
  
    """
  
    从单独的页面中提取出图片保存为filename
  
    """
  
    soup=get_soup(url)
  
    image=soup.find_all('p')[0].find_all('img')[0]['src']
  
    urllib.urlretrieve(image,filename)
  

  
def main(page):
  
    """
  
    下载第page页的妹子图
  
    """
  
    print u'正在下载第 %d 页' % page
  
    page_url=url+'/page/'+str(page)
  
    menu=get_menu(page_url)
  
    print u'@@@@@@@@@@@@@@@@第 %d 页共有 %d 个主题@@@@@@@@@@@@@@@@' %(page,len(menu))
  
    for i in menu:
  
        dir_name=os.path.join('MeiZiTu',i[0])
  
        if not os.path.exists(dir_name):
  
            os.mkdir(dir_name)
  
        pic_nums=int(get_links(i[1]))
  
        print u'\n\n\n*******主题 %s 一共有 %d 张图片******\n' %(i[0],pic_nums)
  
        for pic in range(1,pic_nums+1):
  
            basename=str(pic)+'.jpg'
  
            filename=os.path.join(dir_name,basename)
  
            pic_url=i[1]+'/'+str(pic)
  
            if not os.path.exists(filename):
  
                print u'......%s' % basename,
  
                get_image(pic_url,filename)
  
            else:
  
                print filename+u'已存在,略过'
  

  
if __name__=='__main__':
  
    url='http://www.mzitu.com/'
  
    pages=get_pages(url)
  
    print u'***************妹子图一共有 %d 页******************' %pages
  
    if not os.path.exists('MeiZiTu'):
  
        os.mkdir('MeiZiTu')
  
    page_start=input(u'Input the first page number:\n')
  
    page_end=input(u'Input the last page number:\n')
  
    if page_end>page_start:
  
        for page in range(page_start,page_end):
  
            main(page)
  
    elif page_end==page_start:
  
        main(page_end)
  
    else:
  
        print u"输入错误,起始页必须小于等于结束页\n"

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-546236-1-1.html 上篇帖子: python PAM30 PAMIE 下篇帖子: python 计算时间差
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表