使用Python的urllib2库抓取网页

小木木 发表于 2017-5-5 06:21:10

1、GET方式直接抓取，需要参数拼在参数中

import urllib2
content = urllib2.urlopen(url).read()

这里的url可以是很多中协议，具体参考官方文档
2、POST方式抓取数据，参数可以在url中，也可以封装中请求中

import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()

3、登录，并缓存Cookie

import urllib2, urllib, cookielib
cookiejar = cookielib.LWPCookieJar()
url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
request = urllib2.Request(url)
data = {'username' : name, 'password' : pw}
login_data = urllib.urlencode(data)
response = url_opener.open(request, login_data)

此时，cookie已经被缓存到opener中了，之后有两种用法，一种是将opener设置到urllib2中作为全局的设置，这样就可以在任何地方使用urllib2获取url，另外是直接使用opener.open()来抓取数据,如下，第一种方式方便，第二种方式可以个性化的设置，比如创建多个opener或者设置代理等等

1、urllib2.install_opener(opener)
2、url_opener.open(url)

页: [1]

运维网's Archiver

使用Python的urllib2库抓取网页