最近写了个Python爬虫，记录一下学到的东西

why 发表于 2017-5-7 09:53:06

[*]urllib2 是针对文本的 urllib 是针对二进制文件的
[*]下载文件最简单的写法
urllib.urlretrieve(url, filePath + fileName)
[*]如果需要访问非英文页面文字，自行 decode
html.decode('euc-jp').encode('utf-8')
[*]使用 BeautifulSoup 处理 html 非常方便，但是在 Jython 下速度超级慢！
[*]可以直接使用正则在 BeautifulSoup 中查找需要的标签
links = soup.findAll('a', href=re.compile('^.+?$')
[*]try except else 的应用
[*]强制抛出异常 raise
[*]使用格式化文本实现数字补零
fileName = '%03d.jpg' %(time)
[*]新建文件夹
if not os.path.isdir(filePath):
os.mkdir(filePath)
[*]字符串和数字无法相加需要讲数字转化为字符串 str(num)
[*]cmp 可以用来比较两个字符串，完全相同返回 0
[*]# -*- coding: utf-8 -*- 非常重要，不光影响代码中的注释，还会影响到处理文本。起初忘记加这个，导致日文无法正常处理。

页: [1]

运维网's Archiver

最近写了个Python爬虫，记录一下学到的东西