设为首页 收藏本站
查看: 833|回复: 0

[经验分享] Python爬虫预备知识

[复制链接]

尚未签到

发表于 2015-4-24 08:13:15 | 显示全部楼层 |阅读模式
  1.http编程知识

  • http中client 和server的工作模式
  client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略)
  client通过socket与server通信,发送request并接受response
  http协议是无状态的,是指每一条的请求是相互独立的,client和server都不会记录客户的行为。
  client通过在HTTP请求中添加headers告诉server 他请求的内容,可以接受的格式
  

  • 常用的请求方式有get和post
  Get:client请求一个文件
  Post:client发送数据让server处理
DSC0000.png
  如上图,输入http://www.baidu.com/
  得到的request headers是:
  Get :请求方式  / 表示根目录  HTTP/1.1表示采用的协议版本
  HOST:请求的主机
  Connection:保持长连接,
  Cache-control:缓存相关
  User-agent:告诉server我client的身份,包括浏览器版本等
  Accept:支持的内容类型,先后次序表示浏览器依次加载的先后顺序
  Accept-encoding:允许服务器以一下几种的压缩的格式对传输内容进行压缩
  Accept-language:展示返回信息所采用的语言
  Accept-charset:浏览器支持的字符编码集
  Cookie:缓存相关
  参考博客:
  http://technique-digest.iteye.com/blog/1174581
  http://www.iyunv.com/ShaYeBlog/archive/2012/09/11/2680485.html
  http://blog.iyunv.com/bingjing12345/article/details/9819731
  2. urllib2 相关内容
  
class urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

  URL:应该是一个字符串
  Data:是一个经过urllib.urlencode()编码的编码后字符串
  Headers:用来哄骗user_agent,把来自script访问伪装成浏览器的访问。
  示例代码:

  import urllib
  import urllib2
  url = 'http://www.someserver.com/cgi-bin/register.cgi'
  user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
  values = {'name' : 'WHY',
  'location' : 'SDU',
  'language' : 'Python' }
  headers = { 'User-Agent' : user_agent }
  data = urllib.urlencode(values)
  req = urllib2.Request(url, data, headers)
  response = urllib2.urlopen(req)
  the_page = response.read()
  参考博客:http://blog.iyunv.com/pleasecallmewhy/article/details/8923067
  3. 把如下代码保存成html格式,用相应的浏览器打开,得到浏览器的版本信息
  javascript:alert(navigator.userAgent);
  搜狗浏览器的user_agent
DSC0001.png
  百度浏览器的user_agent
DSC0002.png
  Google chorme的user_agent
DSC0003.png

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-60119-1-1.html 上篇帖子: [python]python学习笔记(七)——加密 下篇帖子: 也玩有道难题的双立方数问题:Python 版解法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表