python爬虫取图片详解，

莫问 · 发表于 2018-8-13 09:55:42

　　接下来会依次准备三个案例（如果要把每一个点都精通的话大约要花费一个月，我说的精通是指自己将代码不用查资料写出来，以下暂未整理）：
　　import requests,threading#多线程处理与控制
　　from lxml import etree
　　from bs4 import BeautifulSoup
　　#获取源码
　　def get_html(url):
　　url='http://www.doutula.com/?qqdrsign=01495'
　　#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
　　headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
　　#上一步是模拟浏览器信息，固定格式，可记下来
　　request=requests.get(url=url,headers=headers)#对网址发送一个get请求
　　response=request.content#获取源码，比test稍微好一点
　　#print(response)
　　return response
　　#接下来是获取外页，即图片自身的源码
　　def get_img_html(html):
　　soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
　　all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
　　for i in all_a:

　　print(i)#i是指<a>　　img_html=get_html(i['href'])#是用来获取超链接这一部分源码
　　print(img_html)
　　#http://www.doutula.com/article/list/?page=2
　　a=get_html(1)
　　get_img_html(a)
　　好了，我们已经可以获取一部分的源码了，这样，我们接下来的工作是开始做多页
　　import requests,threading#多线程处理与控制
　　from lxml import etree
　　from bs4 import BeautifulSoup
　　#获取源码
　　def get_html(url):
　　#url='http://www.doutula.com/?qqdrsign=01495'#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
　　headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
　　#上一步是模拟浏览器信息，固定格式，可记下来
　　request=requests.get(url=url,headers=headers)#对网址发送一个get请求
　　response=request.content#获取源码，比test稍微好一点
　　#print(response)
　　return response
　　#接下来是获取外页，即图片自身的源码
　　def get_img_html(html):
　　soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
　　all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
　　for i in all_a:

　　print(i)#i是指<a>　　img_html=get_html(i['href'])#是用来获取超链接这一部分源码
　　print(img_html)
　　#http://www.doutula.com/article/list/?page=2
　　def main():
　　start_url='http://www.doutula.com/article/list/?page='
　　for i in range(1,10):
　　start_html=get_html(start_url.format(i))#将前十页的页数传递进来，来获取前十页源码
　　get_img_html(start_html)#来获取图片所在的链接源码
　　main()
　　最后是总的源码：
　　import requests,threading#多线程处理与控制
　　from lxml import etree#解析方式，直接找到里面的内容
　　from bs4 import BeautifulSoup
　　#获取源码
　　def get_html(url):
　　#url='http://www.doutula.com/?qqdrsign=01495'#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
　　headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
　　#上一步是模拟浏览器信息，固定格式，可记下来
　　request=requests.get(url=url,headers=headers)#对网址发送一个get请求
　　response=request.content#获取源码，比test稍微好一点
　　#print(response)
　　return response
　　#接下来是获取外页，即图片自身的源码
　　def get_img_html(html):
　　soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
　　all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
　　for i in all_a:

　　#print(i)#i是指<a>　　img_html=get_html(i['href'])#是用来获取超链接这一部分源码
　　get_img(img_html)
　　#print(img_html)
　　#http://www.doutula.com/article/list/?page=2
　　#获取图片的url:
　　def get_img(html):soup=etree.HTML(html)#%E8%A7%A3%E6%9E%90%E4%B9%8B%E5%89%8D%E7%9A%84%E5%88%9D%E5%A7%8B%E5%8C%96%EF%BC%8C%E8%87%AA%E5%8A%A8%E4%BF%AE%E6%AD%A3%E4%BB%A3%E7%A0%81%E7%9A%84
　　items=soup.xpath('//div%5B@class=" artile_des>br/>soup=etree.HTML(html)#解析之前的初始化，自动修正代码的

　　items=soup.xpath('//div[@class="artile_des"]')#@是用来选取属性，找到相应盒子
for item in items:imgurl_list=item.xpath('table/tbody/tr/td/a/img/@onerror')#onerror%E8%BF%99%E4%B8%AA%E6%98%AF%E6%89%80%E9%9C%80%E8%A6%81%E7%9A%84%E5%B1%9E%E6%80%A7%EF%BC%8C%E5%BE%88%E9%87%8D%E8%A6%81

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] python爬虫取图片详解，

浏览过的版块

扫码加入运维网微信交流群