设为首页 收藏本站
查看: 1262|回复: 0

[经验分享] 【Python爬虫学习笔记(1)】urllib2库相关知识点总结

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-11-30 12:54:57 | 显示全部楼层 |阅读模式
1. urllib2的opener和handler概念

  1.1 Openers:
  当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。正常情况下,我们使用默认opener:通过urlopen。但你能够创建个性的openers。可以用build_opener来创建opener对象。一般可用于需要处理cookie或者不想进行redirection的应用场景(You will want to create openers if you want to fetch URLs with specific handlers installed, for example to get an opener that handles cookies, or to get an opener that does not handle redirections.)
  以下是用代理ip模拟登录时(需要处理cookie)使用handler和opener的具体流程。



1 self.proxy = urllib2.ProxyHandler({'http': self.proxy_url})
2 self.cookie = cookielib.LWPCookieJar()
3 self.cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)
4 self.opener = urllib2.build_opener(self.cookie_handler, self.proxy, urllib2.HTTPHandler)
1.2 Handles:
  Openers使用处理器handlers,所有的“繁重”工作由handlers处理。每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面。例如HTTP重定向或者HTTP cookies。
  更多关于Openers和Handlers的信息。http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers

2. urllib2的使用技巧

  2.1 proxy代理ip创建opener
  Note:Currently urllib2 does not support fetching of https locations through a proxy. This can be a problem.
  (http://www.voidspace.org.uk/python/articles/urllib2.shtml#proxies)



1 import urllib2
2 proxy——handler = urllib2.ProxyHandler({'http': '54.186.78.110:3128'})#注意要确保该代理ip可用,示例中ip在美国
3 opener = urllib2.build_opener(proxy_handler)
4 request = urllib2.Request(url, post_data, login_headers)#该例中还需要提交post_data和header信息
5 response = opener.open(request)
6 print response.read().encode('utf-8')
  2.2 用timeout参数设置超时



1 import urllib2
2 response = urllib2.urlopen('http://www.google.com', timeout=10)
  2.3 伪装浏览器
  有些网站的服务器会检查请求的header信息,在访问一些网站时,会出现HTTPError: HTTP Error 403: Forbidden这样的异常,这是由于现在有些网站禁止爬虫访问,爬虫会带来服务器上的负担,爬虫和浏览器发出的http请求区别在于:当用户发送一个http请求的时候,浏览的的版本信息也包含在了http请求信息中,而爬虫就不包含头信息,当服务器端收到一个页面访问请求时,如果不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,这些信息在HTTP协议的中的一个字段User-agent中,缺失这些信息,服务器会认为这些请求是非正常的访问,我们用Fiddler工具就可以看到浏览器的请求的信息。可以用urllib2中Request方法传递header来解决。
  下例中提交了header中的User-Agent信息,由此伪装成浏览器发送请求。查看User-Agent信息非常方便,可以使用Chrome浏览器F12审查元素看network中的Request Header可见详细的Header信息。
  对付“反盗链”,有些网站会检查header中的Referer是不是该网站本身,可以设置header时进行设置。 



1 headers = {
2     'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6',
3   'referer': 'https://login.taobao.com/member/login.jhtml?redirectURL=https%3A%2F%2Fwww.taobao.com%2F'
4 }
5 request = urllib2.Request(
6     url ="https://login.taobao.com/member/login.jhtml?redirectURL=https%3A%2F%2Fwww.taobao.com%2F",
7     data = postdata,
8     headers = headers
9 )
  更多关于HTTP header的详细信息:http://rlog.cn/?p=521

  2.4 cookie的使用
  Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
  cookie的一个使用示例如下。



1 import urllib2
2 import cookielib
3 #声明一个CookieJar对象实例来保存cookie
4 cookie = cookielib.CookieJar()
5 #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
6 handler=urllib2.HTTPCookieProcessor(cookie)
7 #通过handler来构建opener
8 opener = urllib2.build_opener(handler)
9 #此处的open方法同urllib2的urlopen方法,也可以传入request
10 response = opener.open('http://www.baidu.com')
11 for item in cookie:
12     print 'Name = '+item.name
13     print 'Value = '+item.value
  2.5 urllib2.urlopen的返回码
  在无异常抛出的情况下,可以用getcode()方法来得到状态码,所以需要异常处理。



1 import urllib2
2 try:
3     request = urllib2.Request(url)
4     response = urllib2.urlopen(request)
5     print response.read().decode('utf-8')
6 except urllib2.URLError, e:
7     if hasattr(e, "code"):
8         print e.code
9     if hasattr(e, "reason"):
10         print e.reason   
  未完...
  参考资料:
  http://blog.csdn.net/pleasecallmewhy/article/details/8925978
  转载请注明:
  http://www.cnblogs.com/wuwenyan/p/4749018.html
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145380-1-1.html 上篇帖子: python核心编程-第三章-习题 下篇帖子: python Asyncore.dispatcher 理解
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表