Python中文全攻略

Acfe · 发表于 2017-4-26 12:01:02

本文来自http://www.sqlite.com.cn/MySqlite/11/395.Html

1. 在Python中使用中文

在Python中有两种默认的字符串：str和unicode。在Python中一定要注意区分“Unicode字符串”和“unicode对象”的区别。后面所有的“unicode字符串”指的都是python里的“unicode对象”。
事实上在Python中并没有“Unicode字符串”这样的东西，只有“unicode”对象。一个传统意义上的unicode字符串完全可以用str对象表示。只是这时候它仅仅是一个字节流，除非解码为unicode对象，没有任何实际的意义。
我们用“哈哈”在多个平台上测试，其中“哈”对应的不同编码是：
1． UNICODE (UTF8-16)， C854；
2． UTF-8， E59388；
3． GBK， B9FE。
1.1 Windows控制台
下面是在windows控制台的运行结果：
可以看出在控制台，中文字符的编码是GBK而不是UTF-16。将字符串s（GBK编码）使用decode进行解码后，可以得到同等的unicode对象。
但是我在ubuntu下做的实验并非如此：

>>> s='哈哈'
>>> ss=u'哈哈'
>>> type(s)
<type 'str'>
>>> type(ss)
<type 'unicode'>
>>> len(s)
6
>>> len(ss)
2
>>> s
'\xe5\x93\x88\xe5\x93\x88'
>>> ss
u'\u54c8\u54c8'

>>> print s
哈哈
>>> print ss
哈哈
>>> u=s.decode('utf-16')
>>> type(u)

>>> len(u)
3
>>> print u
鏥袓
>>> v=s.decode('utf-8')
>>> type(v)

>>> len(v)
2
>>> print v
哈哈
>>> v==ss
True

可以看出s的类型是一个str,而ss就是一个unicode对象，它们的长度也不相同，打印结果和上述例子是一样的，在用utf-16对s解码后，可以看出它的类型还是unicode,但是长度有变化，而且在终端下打出来是乱码，同样的错误也会出现在用gbk解码时。而用utf-8解码之后就一切正常了，可以看到v和ss是相同的。

注意：可以在控制台打印ss并不代表它可以直接被序列化，比如：
向文件直接输出ss会抛出同样的异常。在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。这一点对各个环境都一样。
总结：在Python中，“str”对象就是一个字节数组，至于里面的内容是不是一个合法的字符串，以及这个字符串采用什么编码（gbk, utf-8, unicode）都不重要。这些内容需要用户自己记录和判断。这些的限制也同样适用于“unicode”对象。要记住“unicode”对象中的内容可绝对不一定就是合法的unicode字符串，我们很快就会看到这种情况。
总结：在windows的控制台上，支持gbk编码的str对象和unicode编码的unicode对象。
1.2 Windows IDLE（在Shell上运行）
在windows下的IDLE中，运行效果和windows控制台不完全一致：
可以看出，对于不使用“u”作标识的字符串，IDLE把其中的中文字符进行GBK编码。但是对于使用“u”的unicode字符串，IDLE居然一样是用了GBK编码，不同的是，这时候每一个字符都是unicode（对象）字符！！此时len(ss) = 4。
这样产生了一个神奇的问题，现在的ss无法在IDLE中正常显示。而且我也没有办法把ss转换成正常的编码！比如采用下面的方法：
这有可能是因为IDLE本地化做得不够好，对中文的支持有问题。建议在IDLE的SHELL中，不要使用u“中文”这种方式，因为这样得到的并不是你想要的东西。
这同时说明IDLE的Shell支持两种格式的中文字符串：GBK编码的“str”对象，和UNICODE编码的unicode对象。
1.3 在IDLE上运行代码
在IDLE的SHELL上运行文件，得到的又是不同的结果。文件的内容是：
直接运行的结果是：
毫无瑕疵，相当令人满意。我没有试过其它编码的文件是否能正常运行，但想来应该是不错的。
同样的代码在windows的控制台试演过，也没有任何问题。
1.4 Windows Eclipse
在Eclipse中处理中文更加困难，因为在Eclipse中，编写代码和运行代码属于不同的窗口，而且他们可以有不同的默认编码。对于如下代码：
#!/usr/bin/python
# -*- coding: utf-8 -*-
s = "哈哈"
ss = u'哈哈'
print repr(s)
print repr(ss)
print s.decode('utf-8').encode('gbk')
print ss.encode('gbk')
print s.decode('utf-8')
print ss
前四个print运行正常，最后两个print都会抛出异常：
'\xe5\x93\x88\xe5\x93\x88'
u'\u54c8\u54c8'
哈哈
哈哈
Traceback (most recent call last):
File "E:\Workspace\Eclipse\TestPython\Test\test_encoding_2.py", line 13, in
print s.decode('utf-8')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
也就是说，GBK编码的str对象可以正常打印，但是不能打印UNICODE编码的unicode对象。在源文件上点击“Run as”“Run”，然后在弹出对话框中选择“Common”：
可以看出Eclipse控制台的缺省编码方式是GBK；所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK，则可以直接打印GBK编码的str对象，比如s。
如果把源文件的编码设置成“UTF-8”，把控制台的编码也设置成“UTF-8”，按道理说打印的时候应该没有问题。但是实验表明，在打印UTF-8编码的str对象时，中文的最后一个字符会显示成乱码，无法正常阅读。不过我已经很满足了，至少人家没有抛异常不是:)
BTW: 使用的Eclipse版本是3.2.1。
1.5 从文件读取中文
在window下面用记事本编辑文件的时候，如果保存为UNICODE或UTF-8，分别会在文件的开头加上两个字节“\xFF\xFE”和三个字节“\xEF\xBB\xBF”。在读取的时候就可能会遇到问题，但是不同的环境对这几个多于字符的处理也不一样。
以windows下的控制台为例，用记事本保存三个不同版本的“哈哈”。

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进行转换，变成一个unicode字符，字符的数据值为“\xFF\xFE”。这个字符不能被打印。编码的时候需要跳过这个字符。
打开unicode格式的文件后，得到的字符串正确。这时候适用utf-16解码，能得到正确的unicdoe对象，可以直接使用。多余的那个填充字符在进行转换时会被过滤掉。
打开ansi格式的文件后，没有填充字符，可以直接使用。
结论：读写使用python生成的文件没有任何问题，但是在处理由notepad生成的文本文件时，如果该文件可能是非ansi编码，需要考虑如何处理填充字符。
1.6 在数据库中使用中文
刚刚接触Python，我用的数据库是mysql。在执行插入、查找等操作时，如果运行环境使用的字符编码和mysql不一致，就可能导致运行时的错误。当然，和上面看到的情况一样，运行环境并不是关键因素，关键是查询语句的编码方式。如果在每次执行查询操作时都把查询字符串做一次编码转换，转变成mysql的默认字符编码，一样不会遇到问题。但是这样写代码也太痛苦了吧。
使用如下代码连接数据库：
self.conn = MySQLdb.connect(use_unicode = 1, charset='utf8', **server)
我不能理解的是既然数据库用的默认编码是UTF-8，我连接的时候也用的是UTF-8，为什么查询得到的文本内容却是UNICODE编码（unicode对象）？这是MySQLdb库的设置么？
1.7 在XML中使用中文
使用xml.dom.minidom和MySQLdb类似，对生成的dom对象调用toxml方法得到的是unicode对象。如果希望输出utf-8文本，有两种方法：
1．使用系统函数
在输出xml文档的时候进行编码，这是我觉得最好的方法。
xmldoc.toxml(encoding=’utf-8’)
xmldoc.writexml(outfile, encoding = ‘utf-8’)
2．自己编码生成
在使用toxml之后可以调用encode方法对文档进行编码。但这种方法无法得到合适的xml declaration（xml文档第一行中的encoding部分）。
不要尝试通过xmldoc.createProcessingInstruction来创建一个processing instraction：
xml declaration虽然看起来像是，但是事实上并不是一个processing instraction。可以通下面的方法得到一个满意的xml文件：
print >> outfile, “”
print >> outfile, xmldoc.toxml().encode(‘utf-8’)[22:]
其中第二行需要过滤掉在调用xmldoc.toxml时生成的“”，它的长度是22。
相面是两种方法的用法比较：
另外，在IDLE的shell中，不要用 u’中文’ 对属性进行赋值。上面讨论过，这样得到的unicode字符串不正确。

本文摘自：http://hi.baidu.com/daping_zhang/blog/item/09dda71ea9d7d21f4134173e.html
Python中有两种字符串，分别是一般的字符串（每个字符用8 bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode for programmers 有着更为全面的描述。
来看下面的代码：
x = u"中文你好"
print s

运行上述代码，Python会给出下面的错误提示
SyntaxError: Non-ASCII character '\xd6' in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
说是遇到非ASCII字符了，并让参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，有如下代码
# -*- coding:gb2312 -*- ＃必须在第一行或者第二行
print "-------------code 1----------------"
a = "中文a我爱你"
print a
print a.find("我")
b = a.replace("爱", "喜欢")
print b
print "--------------code 2----------------"
x = "中文a我爱你"
y = unicode(x, "gb2312")
print y.encode("gb2312")
print y.find(u"我")
z = y.replace(u"爱", u"喜欢")
print z.encode("gb2312")
print "---------------code 3----------------"
print y
程序运行的结果如下：
-------------code 1----------------
中文a我爱你
5
中文a我喜欢你
--------------code 2----------------
中文a我爱你
3
中文a我喜欢你
---------------code 3----------------
Traceback (most recent call last):
File "G:\Downloads\eclipse\workspace\p\src\hello.py", line 16, in
print y
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

可以看到，通过引入编码声明，可以正常地在使用中文，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：
1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码
2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）
3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）

回顾一下使用Python的流程：首先，先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编码声明和源文件的编码不一定是一致的，完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，这是自寻烦恼，而且好的IDE 也应该保证两者的一致性。但是，如果。用记事本或者EditPlus等编辑器来编写代码的话，可能就会出现这种问题的。
得到一个.py文件后，可以运行它。这是把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，假设文件的编码为 gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。

现在已经知道了内存中的字符串存放格式，下面要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序进行显示。这里有两种情况：
1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：可以显式使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。
至此，上面的三个问题已经可以解释第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是Unicode 字符串，所有字符都是统一看待的，因此得到3。
虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此建议在编写Python的程序时，都统一使用Unicode方式。保存文件时使用 UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述，可以参考。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python中文全攻略

浏览过的版块

扫码加入运维网微信交流群