21312190p 发表于 2016-11-22 08:41:12

python字符编码文件


[*]字符编码发展

ASCII 255   只支持英文字母和数字,特殊字符   1bytes
Unicode   中文和英文               统一2bytes
utf-8      中文>3bytes英文>1bytes

[*]bytes类型
文本数据总是unicode由str类型表示,二进制数据则由bytes类型表示
二进制数据用在视频,音频文件以及发送socket网络传输数据等

[*]字符串转成二进制str.encode("encoding=utf-8")
二进制转成字符串b'\xe2\x82'.decode("encoding=utf-8")

[*]文件句柄 就是 文件对象的内存地址

[*]字符编码和转码
ASCII码表中不能存中文,windows默认的系统字符编码是GBK.
Unicode 字符编码能存储世界上所有的字符,但所有字符都占用了两个字节,原来一个2M
的英文文件使用Unicode后需要占用4M的存储空间

[*]utf-8字符串转换成gbk字符
任何两种编码的字符串进行转换都必须通过先转成Unicode编码来实现

[*]Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码.

[*]乱码的出现基本上就两种情况:1、字符编码没有2、字符编码冲突了,人家在写这个程序的时候指定的字符集和咱们使用的字符集的位置不对
[*]在2.x版本的Python中Pyton在解释.py文件的时候,默认是给他一个编码的就是ASCII码
[*]Python3中默认就是Unicode编码
[*]因为在python2.X中默认是ASCII编码,你在文件中指定编码为UTF-8,但是UTF-8如果你想转GBK的话是不能直接转的,的需要Unicode做一个转接站点。
[*]
[*]str ="你好"            //这个字符串采用utf-8编码
new_str=str.decode('utf-8') //把str原来的编码格式传递到decode函数转码成Unicode编码
ret = new_str.encode('GBK') //把unicode编码转换成GBK编码字符串


[*]str= u"你好"   在字符串前面加个u字母表示此字符串设置成Unicode编码



编码
   python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill)所以如果不指定编码类型,
   如果有中文就会报错。

Python的工作过程python 把代码读到内存2、词法语法分析 3、放到编译器---》 生成字节码   4、执行字节码 ---》生成机器码CPU执行变量字符串的值是不能被修改的,他在内存里是连续的,如果想改的话必须在后面预留所以不支持修改!
字符串特性,一旦修改,重新创建

页: [1]
查看完整版本: python字符编码文件