python抓取网页过程

tianzhig · 发表于 2015-12-1 11:24:19

　　准备过程
　　1.抓取网页的过程
　　准备好http请求（http request）->提交对应的请求->获得返回的响应（http response）->获得网页源码
　　2.GET还是POST
　　3.Headers（可选）
　　在某些情况下，直接抓取是被禁止的，此时需要提供一个Headers来告诉对方我不是机器人
　　例如：

1 def getHtml(url):
2    header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}
3    request=urllib2.Request(url,None,header)
4    response=urllib2.urlopen(request)
5    text=response.read()
6    return text
　　4.Post Data（可选）
　　某些情况下是需要登录某网站的，此时需要提交帐号密码之类的，则需要使用Post Data
　　在IE中称为request body，chrome中成为Post Data
　　5.Cookie（可选）
　　一般来说，模拟登陆的时候往往会涉及到Cookie
　　6.其他（代理，最大超时时间timeout）
　　内容分析
　　1.对于html源码，调用BeautifulSoup库
　　2.正则表达式
　　
　　
　　本文参考了http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/
　　可以说是一个简化版，想看的可以去看原文
　　PS：博主提供了很多计算机方面的资料，读后帮助很大，有兴趣的可以过去看看

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] python抓取网页过程

扫码加入运维网微信交流群