Python遇到字符编码出问题的一个相对万能的办法

sunage001 · 发表于 2015-12-1 09:15:57

　　在使用Python做爬虫的过程中，经常遇到字符编码出问题的情况。

UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 0: ordinal not in range(128)
　　针对这种情况，网上已经有很多原理性的分析了，我在此就不一一列举。然而，我相信很多人，即便看完原理以后也不知道怎么解决。
　　
　　我自己琢磨出一种快速解决的方法：

1 def get_page_sourse(url):
2    req = urllib2.Request(url)
3    for key in headers:
4       req.add_header(key,headers[key])
5       content = urllib2.urlopen(req).read()
6       return content
　　这个函数使用urllib2扒取了一个网页的源代码。并返回了这个源代码。当我们使用文件操作准备把content的内容写到一个txt文件中时，就会出现编码错误。
　　在这种情况下，如何快速的排除问题？
　　
　　只需要将最后一行改成下面这样就可以了。

return content.decode('A','ingore').encode('B','ignore')
　　这里，A和B分别可以使gbk, gb2312,utf-8,它们排列组合一下，一共只有6种组合方式
　　例如：

return content.decode('gbk','ingore').encode('utf-8','ignore')

return content.decode('utf-8','ingore').encode('gb2312','ignore')
...
　　我使用这种方式，解决了所有的我遇到的Python的编码错误。虽然是一个一个的试，但是也用不了2分钟就能搞定。
　　至于背后原理什么的，程序跑通了以后再慢慢研究吧。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python遇到字符编码出问题的一个相对万能的办法

浏览过的版块

扫码加入运维网微信交流群