Python中的字符串编解码

继吉 · 发表于 2017-5-2 11:27:02

　　unicode和str类型
　　Python中字符串有两种写法，比如，如果把“中国”这一字符串赋值给变量可以这样写：

str = '中国'
　　或者

str = u'中国'
　　前者定义了一个字符串，而后者则定义了一个unicode编码的字符串。
首先说一下第二种形式。在Python中，为了统一不同编码的字符串的表示，同时为简化字符串的处理，其内部提供了一种统一化的文本类型unicode，即第二种形式的字符串。unicode类型的字符串只处理文本，并把文本以unicode形式在内部存储。unicode类型的作用只用于代码内部字符串的处理，而不关心外部文本的具体格式，可以看作是文本的抽象表示。
但是实际上外界文本的不同编码格式众多。比如向一个网站提交数据，其有可能要求utf-8的编码或者gbk的编码，不同的编码类型的内容是不同的，这就需要将我们程序内部字符串转换成可以与外界交互的编码（如：utf-8，ascii，gdb等）。通常我们使用str类型来操作。严格来讲，str并不一定是文本，它也有可能是二进制的内容，它提供的其实是字节的组合（unicode类型提供的是unicode字符即的组合），只是如果str中刚好是某种形式编码的文本，它便可以当做文本处理（print等）。
我们可以通过在Python的命令行中执行以下代码来看到两种格式的不同：
对于str：

>>> str = '中国';
>>> for c in str:
... c
... <回车>
输出：
'\xe4'
'\xb8'
'\xad'
'\xe5'
'\x9b'
'\xbd'
对于unicode：

>>> str = u'中国'
>>> for c in str:
... c
... <回车>
输出：
u'\u4e2d'
u'\u56fd'
前者输出了6行，而后者只输出了2行。这是由于两种类型对字符串的不同理解造成的。前者将字符串理解为字节的组合，由于系统默认采用utf-8编码，字符串'中国'其实是有四个字节组合而成的。后者将字符串理解为文本字符的组合，u'中国'被看做“中”和“国”两个字的unicode码组合。

编码的转换

unicode与str的转换

我们用encode方法来对unicode字符串编码成str字符串：

>>> unicode_str = u'中国'
>>> unicode_str
u'\u4e2d\u56fd'
>>> utf8_str = unicode.encode('utf-8');
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'
使用decode方法将str转换成unicode:

>>> utf8_str = '中国'
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> unicode_str = utf8_str.decode('utf-8')
>>> unicode_str
u'\u4e2d\u56fd'
在encode或者decode的时候需要手动传入编码方式来指定str字符串的编码

不同编码的转换

　　有时我们可能需要以一种编码方式从数据源中获取文本，然后以另一种编码方式保存到另外的数据源中。可以利用unicode作为中间变量进行转换:

>>> utf8_str = '中国'
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> unicode_str = utf8_str.decode('utf-8')
>>> gbk_str = unicode_str.encode('gbk')
>>> gbk_str
'\xd6\xd0\xb9\xfa'
　　由于gbk使用两个字节保存汉字，所以转换后总共是四个字节。

编码检测

有时候，我么可能不知道一个字符串是什么编码，chardet工具可以帮助我们检测未知编码的字符串编码格式。
首先安装chardet，在shell中：

$ sudo easy_install chardet
　　安装完就可以使用了，进入Python命令行：

>>> import chardet
>>> str = '中国'
>>> chardet.detect(str)
{'confidence': 0.7525, 'encoding': 'utf-8'}
　　结果中encoding是猜测的编码，confidence是可信度，之后如何处理就看你了。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python中的字符串编解码

扫码加入运维网微信交流群