Python中的编码与解码(转)

快乐的老鼠 · 发表于 2015-12-1 11:32:14

　　Python中的字符编码与解码困扰了我很久了，一直没有认真整理过，这次下静下心来整理了一下我对方面知识的理解。
　　文章中对有些知识没有做深入的探讨，一是我自己也没有去深入的了解，例如各种编码方案的实现方式等；二是我觉得只要提能对理解Python字符编码与解码的关键知识即可，想深入可以查其它资料。
　　文中的观点肯定有纰漏，只做参考，欢迎指正。
　　Unicode
　　参考：http://baike.baidu.com/view/40801.htm
　　Unicode是什么，这里不多说了，百科上面讲的很清楚了，这里只提下有助于理解本文主题的知识。
　　Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。每个字符都对应一个编号，编号的范围是0-0x10FFFF来。
　　字符编码方案
　　参考：http://baike.baidu.com/view/40801.htm
　　我们知道，每个Unicode字符对应一个编号，例如汉字“我”对应的编号是25105，但在程序中不是直接用编号来表示Unicode字符的（那得有多长的数字啊），而是表示成16进制格式，但具体怎么转换成16进制，不同的编码方案采用的方式不一样。
　　

>>> s = u'我'　　
>>> ord(s)
　　
25105
　　
>>> s
　　
u'\u6211'
　　
>>> s.encode('utf-8')
　　
'\xe6\x88\x91'
　　
>>> s.encode('utf-16')
　　
'\xff\xfe\x11b'
　　
>>> s.encode('utf-32')
　　
'\xff\xfe\x00\x00\x11b\x00\x00'
　　
>>> s.encode('gbk')
　　
'\xce\xd2'
　　
>>>
　　

　　我们用unicode()内置函数创建了一个Python中的unicode字符，然后ord()函数可以得到它在Unicode字符集中的编号。Python的unicode对象有一个encode()方法，用来对unicode对像进行编码。
　　这个示例中的一些知识，在后面会讲到，现在不用深究。这里提下UTF-8编码方式，其它的还没深入研究过，但不妨碍本文的主题。
　　UTF-8以字节为单位对Unicode编号进行编码。每个字节被转换成一个二位的十六进制数。UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。
　　Python支持很多的编码方案，包括ascii，utf-8，utf-16，utf32，gbk，gb2312等，完整的列表可以在下面的链接中找到：
　　http://docs.python.org/2/library/codecs.html#standard-encodings
　　Python中的字符串
　　在Python中，str 对象表示所有普通字符串对象，它只能表示ASCII码表中的字符，特点是每个字符占用一个字节，所以也叫做字节字符串（Byte string）。unicode 对象则可以表示所有Unicode字符集中的字符。
　　s = 'I love python'
　　u = u'我爱Python'
　　print isinstance(s, str)
　　print isinstance(u, unicode)
　　--输出
　　True
　　True
　　还可以使用 str() 函数和 unicode() 从一个对象构建字符串，
　　str(object) 函数返回的结果通常可以通过定义 object 的 str 属性来定制返回的结果。
　　unicode()函数接受多个参数，与编码格式有关，这在后面会讲到。
　　Python中的Unicode 转义字符
　　我们常看到“ \u6211” 这样的字符，用json.dumps(obj)时，如里obj是unicode字符，包含非ASCII码，且ensure_ascii=True,那返回的结果字符串中就包含这种形式。这是个转义字符，表示Unicode字符“我”。但是注意的是，这种转义只在unicode字面量中有效，用print 输出时会自动转为对应的unicode字符。而在str字面量中没有特殊意义。web信息中常会遇到“\u4f60\u597d”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的。python里str.decode()和str.encode()为我们提供了解码和编码的方法。其中str.decode('unicode_escape')能将此种字符串解码为unicode字符串。下面是在ubuntu的ipython中的操作，
　　

>>> a = u'你好'　　
>>> a
　　
u'\u4f60\u597d'
　　
>>> print a
　　
你好
　　
>>> b = '你好'
　　
>>> b
　　
'\xe4\xbd\xa0\xe5\xa5\xbd'
　　
>>> print b
　　
你好
　　
>>> c = '\u4f60\u597d'
　　
>>>
　　
>>> c
　　
'\\u4f60\\u597d'
　　
>>> print c
　　
\u4f60\u597d
　　
>>>
　　
>>> d = r'\u4f60\u597d'
　　
>>> d
　　
'\\u4f60\\u597d'
　　
>>> print d
　　
\u4f60\u597d
　　
>>> d == c
　　
True
　　
>>> e = c.decode('unicode_escape')
　　
>>> e
　　
u'\u4f60\u597d'
　　
>>> print e
　　
你好
　　
>>>
　　

　　其实6211是字符‘我’在Unicode字符集中的编号25105的16进制值
　　字符串字面量和程序中处理的字符串
　　在源代码中，字符串通常用字面量来表示
　　u = u'我爱Python'
　　但字面量是给人看的，程序看到的是对字面量进行处理后的字符，而且 str 字符串和 unicode 字符串的处理方式不一样。
　　unicode 字符串会将字面量中的非ASCII字符替换成Unicode转义符，但最后的结果是与原字符串等价的。
　　str类型的字面量会使用设置的编码格式进行编码处理，最后得到的是编码字符串（这点很重要，后面会提到）。编码字符串与原字符串不能等同。
　　--脚本

-- coding: utf-8 --
　　s = '我爱Python'
　　u = u'我爱Python'
　　print 'encoded str: ', repr(s)
　　print 'escaped unicode: ', repr(u)
　　print 'str: ', s
　　print 'decoded str: ', s.decode('utf-8')
　　print 'unicode: ', u
　　--输出
　　encoded str: '\xe6\x88\x91\xe7\x88\xb1Python'
　　escaped unicode: u'\u6211\u7231Python'
　　str: 鎴戠埍Python
　　decoded str: 我爱Python
　　unicode: 我爱Python
　　'\xe6\x88\x91\xe7\x88\xb1Python'是对 s 编码后的编码字符串，直接输出编码字符串会得到不一样的结果，因为实际上，'\xe6' 等被当作16进制转义字符来处理了。要想得到正确结果，需要先解码。
　　u'\u6211\u7231Python'是转义后的与 u 等价的unicode字符串
　　编码字符串
　　编码字符串，是指采用指定的编码格式对字符进行编码后得到的字符串。编码格式有很多中，例如 ascii、utf-8、gbk、gbk2312等。
　　编码字符串是纯 str 字符串，它表示原字符串的编码结果。直接输出编码字符串可能会与原来的字符串表示的值不一样，除非原来的字符串都是ASCII字符。
　　--脚本

-- coding: utf-8 --
　　s = '我'
　　s1 = '我爱Python'
　　print len(s)
　　print repr(s)
　　print s
　　print repr(s1)
　　print s1
　　--输出
　　3
　　'\xe6\x88\x91'
　　我
　　'\xe6\x88\x91\xe7\x88\xb1Python'
　　鎴戠埍Python
　　'\xe6\x88\x91' 和 '\xe6\x88\x91\xe7\x88\xb1Python' 就是编码字符串。在编码字符串中类似 '\xe6' 这种字符是Python中的16进制转义字符，被看作是一个字符，而不是4个字符。（Python转义序列：http://docs.python.org/2/reference/lexical_analysis.html#string-literals）
　　我们可以看到 s 的长度已经是3了，因为这里统计的是编码字符串的长度。
　　上面的例子有个小细节，字符串只包含单个字符的时候，print语句好像做了解码处理能直接输出正确的结果，但多个字符就会乱码。
　　这是为什么呢？
　　开始编码和解码
　　前面介绍了一些基本知识，现在开始来对字符串进行编码和解码了。
　　编码：
　　--脚本

-- coding: utf-8 --
　　u = u'我爱Python'
　　print 'encoded[utf-8]: ', repr(u.encode('utf-8'))
　　print 'encoded[gbk]: ', repr(u.encode('gbk'))
　　print 'encoded[ascii]: ', repr(u.encode('ascii'))
　　--输出
　　encoded[utf-8]: '\xe6\x88\x91\xe7\x88\xb1Python'
　　encoded[gbk]: '\xce\xd2\xb0\xaePython'
　　encoded[ascii]:
　　Traceback (most recent call last):
　　File "C:\Users\chw\Desktop\encoding.py", line 8, in
　　print 'encoded[ascii]: ', repr(u.encode('ascii'))
　　UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
　　在上面的例子中，我们对一个unicode字符串采用了不同编码方式进行了编码，打印编码字符串。最后我们得到了一个错误，是因为ascii编码格式不能编码非ASCII字符。
　　对于str类型的字面量程序会自动做编码处理，所以就不要再去编一次码了。至于程序会采用何种编码格式要看设置，例如，在前面的脚本中，开头都有一个编码格式声明

-- coding: utf-8 --
　　这个声明告诉编译器该用什么编码格式处理str类型的字面量。在Python2.6以后的版本好像会根据保存源代码文件的格式来判断编码格式（没有声明的情况下），但先不深究了，总之开头指定编码格式应该是个好习惯。
　　解码：
　　str对象提供decode()方法来解码
　　

--脚本　　

-- coding: utf-8 --
　　s = '我爱Python'
　　print repr(s)
　　print s
　　print s.decode('utf-8')
　　--输出
　　'\xe6\x88\x91\xe7\x88\xb1Python'
　　鎴戠埍Python #乱码了
　　我爱Python
　　前面我们讲过，str 字面量被自动编码成编码字符串，所以这里的 s 已经是编码后的编码字符串了，因此要输出 s 原来的字符，就需要解码。而开始我们指定了源文件的编码方式为utf-8，所以我们需要用utf-8格式来解码。
　　IDLE交互环境中的差异
　　在IDLE交互环境中，Unicode字面量好像不能正确的工作
　　

>>> u = u'我爱Python'　　
>>> u
　　
u'\xce\xd2\xb0\xaePython'
　　
>>> isinstance(u, unicode)
　　
True
　　
>>> print u
　　
ÎÒ°®Python
　　
>>>
　　

　　此例中，u实际上是表示'我爱Python'的编码字符串的unicode字符串，而不是'我爱Python'的unicode字符串了。也就是说，先将'我爱Python'编码成编码字符串，然后把编码字符串转换成unicode字符串。
　　在IDLE 交互环境中创建unicode对象的正确方式应该是下面这样：
　　

>>> u = unicode('我爱Python', 'gbk')　　
>>> print repr(u)
　　
u'\u6211\u7231Python'
　　
>>> print u
　　
我爱Python
　　

　　unicode函数的第一个参数指定编码字符串，第二个参数指定这个编码字符串的编码格式。函数在处理中，先用第二个参数指定的编码格式解码第一个参数，根据不同的编码格式，可以直接返回一个unicode字符串。
　　如果省略第二个参数，unicode函数会将ascii作为默认编码格式（不管是交互环境还是脚本中都是这样）。
　　第二个参数的值与你的环境配置有关，我在windows下面使用IDLE交互环境，默认的编码是gbk或者是gbk兼容的编码格式。
　　在脚本中unicode字面量能被解析成正确的unicode字符串，没有IDLE那种令人费解的问题
　　---脚本

-- coding: utf-8 --
　　u = u'我爱Python'
　　print repr(u)
　　print 'unicode: ', u
　　---输出
　　u'\u6211\u7231Python'
　　unicode: 我爱Python

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python中的编码与解码(转)

浏览过的版块

扫码加入运维网微信交流群