Python: 字符编码基础及中文乱码
一、字符编码基础字符编码是计算机对字符的格式化,从而能够在计算机系统中存储与传输。
1.ASCII码
在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出 256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从 0000000到11111111。
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。
2.非ASCII编码
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。 于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使 用的编码体系,可以表示最多256个符号。
但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码 中代表了é,在希伯来语编码中却代表了字母Gimel(ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。 比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。
3.Unicode
世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母 Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。
Unicode的问题
需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。比如,汉字“严”的unicode是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。这里就有两个严重的问题,第一个问题是,如何才能区别unicode和ascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号 呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必 然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。它们造成的结果是:
1)出现了unicode的多种存储方式,即有许多种不同的二进制格式,可以用来表示unicode。
2)unicode在很长一段时间内无法推广,直到互联网的出现。
4.UTF-8
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。下表总结了编码规则,字母x表示可用编码的位。
http://p.blog.csdn.net/images/p_blog_csdn_net/kiki113/EntryImages/20090410/utf8.jpg
下面,还是以汉字“严”为例,演示如何实现UTF-8编码。
已知“严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(00000800-0000 FFFF),因此“严”的UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是 “11100100 10111000 10100101”,转换成十六进制就是E4B8A5。
5.Windos下Unicode与UTF-8之间的转换
在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击“文件”菜单中的“另存为”命令,会跳出一个对话框,在最底部有一个“编码”的下拉条。
http://p.blog.csdn.net/images/p_blog_csdn_net/kiki113/EntryImages/20090410/SaveAs.jpg
里面有四个选项:ANSI,Unicode,Unicode big endian 和 UTF-8。
1)ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。
2)Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。
3)Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。
4)UTF-8编码,也就是上一节谈到的编码方法。
选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。
其中:Little endian和Big endian:
Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例,Unicode码是4E25,需要用两个字节存储,一个字节 是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。
计算机怎么知道某一个文件到底采用哪一种方式编码?
Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格“(ZERO> --------------------------------------------------------------------------------------
二、python中的中文编码
1.python中的unicode、str和print
unicode,一般指unicode对象,例'哈哈'的unicode对象为u'/u54c8/u54c8'
str,是一个字节数组,这个字节数组表示的是对unicode对象(可以是utf-8、gbk、cp936、GB2312)编码后的存储的格式。这里它仅仅是一个字节流,没有其它的含义,如果你想使这个字节流显示的内容有意义,就必须用正确的编码格式来解码显示
print,语句print的的实现是将要输出的内容传送给操作系统,操作系统会根据系统的编码对输入的字节流进行编码
2.unicode、str和print之间的转换
我们以中文“哈哈”为例,“哈哈”的编码如下:
<1>定义一个字符串变量test = '哈哈',并查看在计算机中的存储:
http://blog.51cto.com/5319188/
我们已经看到,'哈哈'在计算机中按照某种编码方式存储了下来,而在print的时候,print函数对存储的test进行了默认编码输出。
<2>将test进行str操作:
http://blog.51cto.com/5319188/
与<1>相同,可见str只是对test编码后的一个存储格式。
<3>将test进行gbk编码
http://blog.51cto.com/5319188/
test的存储形式发生了变化,这是因为不同编码方式造成的
<4>将test进行utf-8编码
http://blog.51cto.com/5319188/
这时发生了错误,于是我们进行了以下测试:
http://blog.51cto.com/5319188/ http://blog.51cto.com/5319188/
由此看到,
(1)我们无法直接对test进行utf-8的编码,而需要经过对其特定编码之后才可以完成utf-8的编码,这是因为在python中str和unicode在编码和解码过程中,如果将一个str直接编码成另一种编码,会先把str解码成unicode,采用的编码为默认编码,一般默认编码是anscii,所以在上面示例代码中第一次转换的时候会出错,当设定当前默认编码为'gbk'后,就不会出错了。当然,我们也可以把这个默认编码给改了,如下:
http://blog.51cto.com/5319188/
(2)由于在对test进行utf-8编码之后,print语句将要输出的内容('/xe5/x93/x88/xe5 /x93/x88')传送了操作系统,操作系统会根据系统的编码对输入的字节流进行编码,从而输出的是“鍝堝搱”(注:'/xe5/x93/x88/xe5 /x93/x88'用GB2312去解释,其显示的出来就是“鍝堝搱”,)
(3)以上所有例子中print函数所输出的'哈哈'(gbk编码)与'鍝堝搱'(GB2312),而gbk是GB2312的扩展,前者兼容后者,可见,print默认编码应该是gbk了。
(4)test = u'哈哈'是定义了一个unicode类型的变量,所以可以直接encode,decode就是把其他编码转换为unicode,encode就是把unicode编码的字符串转换为特定编码,这也是例子中直接从对str类型的test进行encode发生错误的原因。
3.python文件的编码格式和编码声明的作用
(1)文件的编码格式决定了在该源文件中声明的字符串的编码格式,例如:
str = '哈哈',print repr(str)
a.如果文件格式为utf-8,则str的值为:'/xe5/x93/x88/xe5/x93/x88'(哈哈的utf-8编码)
b.如果文件格式为ANSCII,则str的值为:'/xb9/xfe/xb9/xfe'(哈哈的ANSCII编码)
而在python中的字符串,只是一个字节数组,所以当把a情况的str输出到 gbk编码的控制台时,就将显示为乱码:鍝堝搱;而当把b情况下的str输出utf-8编码的控制台时,就会报错。
(2)在py程序的开头会用#coding=gbk 类似的语句声明一下编码,这句话作用是:
a.声明源文件中将出现非ascii编码(通常也就是中文);
b.在高级的IDE中,IDE会将你的文件格式保存成你指定编码格式。
c.决定源码中类似于u'哈哈'这类声明的将‘哈哈’解码成unicode所用的编码格式,例如:
#coding:gbk
ss = u'哈哈'
print repr(ss)
print 'ss:%s' % ss
将这个些代码保存成一个utf-8文本,运行,你认为会输出什么呢?大家第一感觉肯定输出的肯定是:
u'/u54c8/u54c8'
ss:哈哈
但是实际上输出是:
u'/u935d/u581d/u6431'
ss:鍝堝搱
为什么会这样,这时候,就是编码声明在作怪了,在运行ss = u'哈哈'的时候,整个过程可以分为以下几步:
1) 获取'哈哈'的编码:由文件编码格式确定,为'/xe5/x93/x88/xe5/x93/x88'(哈哈的utf-8编码形式)
2) 转成 unicode编码的时候,在这个转换的过程中,对于'/xe5/x93/x88/xe5/x93/x88'的解码,不是用utf-8解码,而是用声明编码处指定的编码GBK,将'/xe5/x93/x88/xe5/x93/x88'按GBK解码,得到就是''鍝堝搱'',这三个字的unicode编码就 是u'/u935d/u581d/u6431',至止可以解释为什么print repr(ss)输出的是u'/u935d/u581d/u6431' 了。
总结:
1.任何字符在内存中都是以一种编码形式存储,而不是存储它本身,我们只可能在存入内存之前或者在从内存中拿出来之后,适当的进行编码与解码,即可得到我们想要的结果。
2.打印列表,打印的是所有元素在内存中的形式,而逐个打印列表的元素的时候,print将其传送给操作系统进行了默认编码,我们看到的是结果。
页:
[1]