{Python??图片下载}

9404803 · 发表于 2017-4-24 09:16:46

{Python??图片下载}
2011年07月29日
　　v1.0 这次是用的XPATH解析的网页，代码长度是原来的一半
　　v1.1 加入多线程支持，修改了读取图片列表的bug,加入多线程后可以同时开启几十个线程同时下载，很奇怪为啥没有被封...
　　uthor__ = 'Dodola'
　　from lxml.html import parse
　　from time import sleep,ctime
　　import time
　　import urllib.request
　　import threading
　　import os
　　BASEURL = "http://www.topit.me"
　　ALBUMURL="http://www.topit.me/album/"
　　ALBUMPERURL="http://www.topit.me/album/%s?p=%s"
　　def Download(path, pageUrl):
　　try:
　　spath = parse(BASEURL + pageUrl)
　　imageUrls = spath.xpath('//a[@id="item-tip"]')
　　imageUrl = imageUrls[0].attrib["href"]
　　print("正在下载%s"%imageUrl)
　　imageNames=imageUrl.rsplit('/')
　　imageName=imageNames[len(imageNames)-1]
　　urllib.request.urlretrieve(imageUrl, path+imageName)
　　print("保存成功:%s%s"%(path ,imageName))
　　except Exception as err:
　　print("下载错误{}".format(err))
　　def DownloadAlbum(path,albumId):
　　pageUrl=ALBUMURL+albumId
　　tempdir="%s%s\\"%(path,time.strftime("%Y%m%d%H%M%S",time.localtime(time.time())))
　　print(tempdir)
　　os.mkdir(tempdir)
　　print(pageUrl)
　　spath=parse(pageUrl)
　　pagecounts=spath.xpath("id('pagination')/div/a")
　　print(pagecounts)
　　print("页面总数:%s"%(int(pagecounts[len(pagecounts)-2].text_content())))
　　if len(pagecounts)>1:
　　pagecount=int(pagecounts[len(pagecounts)-2].text_content())
　　else:
　　pagecount=2
　　for page in range(1,pagecount):
　　print("访问第%s页"%page)
　　DownloadPerAlbum(tempdir,albumId,page)
　　def DownloadPerAlbum(path,albumid,page):
　　pageUrl=ALBUMPERURL% (albumid,page)
　　pageel=parse(pageUrl)
　　imgUrls=pageel.xpath("//a[starts-with(@href,'/album/%s/item/')]/@href"%albumid)
　　imgUrls=set(imgUrls)#去重
　　print("第%s页图片数%s"%(page,len(imgUrls)))
　　task_threads=[] #存储线程
　　count=1
　　for i in imgUrls:
　　t= threading.Thread(target=Download,args=(path,i))
　　#Download(path,i.attrib.get("href"))
　　count=count+1
　　task_threads.append(t)
　　for task in task_threads:
　　task.start()
　　#task.join()#将线程改为1，过多线程会被封
　　for task in task_threads:
　　task.join() #等待所有线程结束
　　print("线程结束")
　　DownloadAlbum("E:\\topit.me\\","225489")

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] {Python??图片下载}

浏览过的版块

扫码加入运维网微信交流群