why 发表于 2017-5-7 09:53:06

最近写了个Python爬虫,记录一下学到的东西


[*]urllib2 是针对文本的 urllib 是针对二进制文件的
[*]下载文件最简单的写法
urllib.urlretrieve(url, filePath + fileName)
[*]如果需要访问非英文页面文字,自行 decode
html.decode('euc-jp').encode('utf-8')
[*]使用 BeautifulSoup 处理 html 非常方便,但是在 Jython 下速度超级慢!
[*]可以直接使用正则在 BeautifulSoup 中查找需要的标签
links = soup.findAll('a', href=re.compile('^.+?$')
[*]try except else 的应用
[*]强制抛出异常 raise
[*]使用格式化文本实现数字补零
fileName = '%03d.jpg' %(time)
[*]新建文件夹
if not os.path.isdir(filePath):
os.mkdir(filePath)
[*]字符串和数字无法相加 需要讲数字转化为字符串 str(num)
[*]cmp 可以用来比较两个字符串,完全相同返回 0
[*]# -*- coding: utf-8 -*- 非常重要,不光影响代码中的注释,还会影响到处理文本。起初忘记加这个,导致日文无法正常处理。
页: [1]
查看完整版本: 最近写了个Python爬虫,记录一下学到的东西