设为首页 收藏本站
查看: 920|回复: 0

[经验分享] 用Python制作新浪微博爬虫

[复制链接]

尚未签到

发表于 2015-12-1 12:28:15 | 显示全部楼层 |阅读模式
  早上刷空间发现最近好多人过生日诶~
  仔细想想,好像4月份的时候也是特别多人过生日【比如我
  那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下
  
  最简单易得的生日数据库大概就是新浪微博了:
DSC0000.png
  
  但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解
  其实有更高效的方法:爬移动版
  移动版因为手机浏览器的限制大多都做了简化,更有利于爬虫
DSC0001.png
  
  注意上面的网址:http://weibo.cn/5156584529/info
  经测试不同的用户仅仅是中间的数字不同,那么只要枚举数字就可以实现爬虫了~
  但是移动版微博想查看用户资料是必须要登录的。所以我们要先模拟登录,获取cookie,再访问url,获取用户资料。
  许多网站的登录都用到了cookie,大体过程如下:
  用户输入用户名密码,浏览器将这些组成一个form(表单)提交给服务器,若服务器判断用户名密码正确则会返回一个cookie,然后浏览器会记录下这个cookie。之后用本地的cookie再访问就不用登录了。
  
  模拟登录:
  打开微博移动版主页http://weibo.cn,点击登录,得到登录地址:
  http://login.weibo.cn/login/?ns=1&revalid=2&backURL=http%3A%2F%2Fweibo.cn%2F&backTitle=%CE%A2%B2%A9&vt=
  【这界面真的好丑。。。
DSC0002.png
  输入用户名密码登录,用chrome抓包,查看表单:
DSC0003.png
  其实我们只需要表单就够了。
  用Python中的urllib2,使用表单数据访问登录页,获取cookie,再用cookie访问用户页即可。
  但是还要注意一个问题:新浪微博作了反爬虫处理,因此会遇到这个错误:
  urllib2.HTTPError: HTTP Error 403: Forbidden
  所以还要加上一个头信息headers来冒充浏览器
  
  code:


DSC0004.gif DSC0005.gif


1 __author__ = 'IBM'
2 import urllib2
3 import urllib
4 import cookielib
5 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
6 cookie = cookielib.CookieJar()
7 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
8
9 #uurl='http://weibo.cn/5156582529/info'
10 wurl='http://login.weibo.cn/login/?backURL=&backTitle=&vt=4&revalid=2&ns=1'
11
12 logindata=urllib.urlencode(
13     {
14         'mobile':'不许偷看我手机号!',
15         'password_8199':'不许偷看我密码!',
16         'remember':'on',
17         'backURL':'http%253A%252F%252Fweibo.cn%252F',
18         'backTitle':'%E5%BE%AE%E5%8D%9A',
19         'tryCount':'',
20         'vk':'8199_4012_2261332562',
21         'submit':'%E7%99%BB%E5%BD%95'
22     }
23 )
24
25 loginreq=urllib2.Request(
26     url=wurl,
27     data=logindata,
28     headers=headers
29 )
30
31 loginres=opener.open(loginreq)
32 print loginres.read()
33
34 html=opener.open(urllib2.Request(url='http://weibo.cn/5156584529/info',headers=headers))
35 dat=html.read()
36 print dat
View Code  输出的dat就是用户资料页的HTML。随便想要什么信息都可以去里面找啦~
  
  【但是目前还有个问题没解决:注意表单里红色underline的那两段:
DSC0006.png
  经测试这两个数字每次登录的时候都是不一样的。。而且同一个数字有效期是一定的,也就是说过一会儿这段代码可能就登录不了了。。。
  个人猜测这可能是为了反爬虫吧。。。
  under construction
  
  Ref:
  http://blog.csdn.net/pleasecallmewhy/article/details/9305229
  http://www.douban.com/note/131370224/

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145859-1-1.html 上篇帖子: 关于python中的setup.py 下篇帖子: 【转载】Python编写简易木马程序
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表