Python与中文

偷瓜的贼 · 发表于 2015-4-24 05:25:20

前两天用Python写了个小脚本，其中有个需求是从一个文本文件A中读取数据，然后处理一下写进一个新的文本文件B中。不过A文件中既有英文也有中文。　　写出处理这个需求的代码并不复杂，随手就能写下类似的代码：

1

def write_a_line(line, fp):
2 fp.write(line)　　
　　不过这段程序一旦碰到有汉字的字符串时，可能就会遇到下面的问题：

　　Traceback (most recent call last):
　　File "", line 1, in
　　UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

　　恩，这种情况对于我们平时使用C＃或者Java的程序员来说确实比较头大。从这个错误提示来看，Python在写文件时，对line变量进行了编码操作，而且是针对line对象进行ASCII码的编码。
　　我们都知道Python是支持unicode的，而且还有针对unicode的类型“unicode”。要想让字符串称为unicode字符串，可以在字符串的引号前面加入一个小写字母“u”。翻阅Python的文档，我们可以发下write方法接收的是str对象。不过Python并不像C＃，它不用声明变量的类型。所以我们应该先看看line到底是个什么对象。于是为了解决这个问题，我把上面的代码加了一行：

1def write_a_line(line, fp):
2 print line.__class__.__name__
3 fp.write(line)　　
　　代码运行之后，我发现当line中有中文的时候，我们的line变量的类型是unicode。从网上搜了一下与unicode与写文件相关的帖子，可以得到一个信息，对这unicode对象调encode方法进行编码就可以正常写文件了。于是代码又编程了下面的样子：

1def write_a_line(line, fp):
2 if line.__class__.__name__ == “unicode”:
3 line = line.encode(“GB2312”)
4 fp.write(line)　　
　　这里要注意的问题是不能一棍子打死，line可能会是unicode对象也可能是str对象，不过我们只对unicode对象进行编码。这下问题总算是解决了。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python与中文

扫码加入运维网微信交流群