使用python写的如何自动提交和抓取网页

zz775520666 · 发表于 2015-4-25 05:17:32

　　最近在研究怎么样做个自动发帖器，要完成这个工具难度蛮大的，验证码就是一个大问题(还没有想到解决办法哦，不管了），先要解决的是如何抓取，分析和提交页面的问题。
　　下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。
　　import urllib
import urllib2
import urlparse
import lxml.html
　　def url_with_query(url, values):
   parts = urlparse.urlparse(url)
   rest, (query, frag) = parts[:-2], parts[-2:]
   return urlparse.urlunparse(rest + (urllib.urlencode(values), None))
　　def make_open_http():
   opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
   opener.addheaders = []  # pretend we're a human -- don't do this
   def open_http(method, url, values={}):
      if method == "POST":
         return opener.open(url, urllib.urlencode(values))
      else:
         return opener.open(url_with_query(url, values))
   return open_http
　　open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "http://www.google.com").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="http://www.google.com/search"
　　response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)
　　
　　恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。
　　还是小猫幸福，睡觉先。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 使用python写的如何自动提交和抓取网页

扫码加入运维网微信交流群