设为首页 收藏本站
查看: 608|回复: 0

[经验分享] python的编码问题总结

[复制链接]

尚未签到

发表于 2015-4-21 10:29:48 | 显示全部楼层 |阅读模式
  问题一:
  当python中间处理非ASCII编码时,经常会出现如下错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)   
0x??是超出128的数字,python在默认的情况下认为语言的编码是ascii编码,所以无法处理其他编码,需要设置python的默认编码为所需要的编码。   
一个解决的方案是在代码中添加:
  import sys
  reload(sys)   
sys.setdefaultencoding('gb2312')
  解释:
  sys.setdefaultencoding方法在python导入site.py后就删除了(具体代码查看site.py就可以看到)因此如果想用的话可以:
  在确定sys已经导入的情况下,使用:   
reload(sys)
  
  问题二:
  You need to deal with data that doesn't fit in the ASCII character set.
  你需要处理不适合用ASCII字符集表示的数据.
  #将Unicode转换成普通的Python字符串:"编码(encode)"   
unicodestring = u"Hello world"   
utf8string = unicodestring.encode("utf-8")   
asciistring = unicodestring.encode("ascii")   
isostring = unicodestring.encode("ISO-8859-1")   
utf16string = unicodestring.encode("utf-16")   
   
#将普通的Python字符串转换成Unicode: "解码(decode)"   
plainstring1 = unicode(utf8string, "utf-8")   
plainstring2 = unicode(asciistring, "ascii")   
plainstring3 = unicode(isostring, "ISO-8859-1")   
plainstring4 = unicode(utf16string, "utf-16")   
   
assert plainstring1==plainstring2==plainstring3==plainstring4
  
  python代码文件的编码
  
  py文件默认是ASCII编码,中文在显示时会做一个ASCII到系统默认编码的转换,这时就会出错:SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示:   
# coding=gbk   
print '中文'
  
  字符串的编码     
像上面那样直接输入的字符串是按照代码文件的编码来处理的,如果是unicode编码,有以下三种方式:   
s1 = u'中文'   
s2 = unicode('中文','gbk')   
s3 = s1.decode('gbk')
  unicode是一个内置函数,第二个参数指示源字符串的编码格式。   
decode是任何字符串具有的方法,将字符串转换成unicode格式,参数指示源字符串的编码格式。   
encode也是任何字符串具有的方法,将字符串转换成参数指定的格式。
  系统的默认编码     
对于中文系统来说,默认的是gbk,gb2312也可以,因为它是gbk的字集。使用print输出时,字符串会被转换成此格式,隐式转换时,是从代码文 件编码格式转换成gbk,默认是ASCII->GBK。考虑上面第二点,如果字符串编码不是ASCII,则隐式转换会出错,需要显式转换,使用 encode方法。如果指定了代码文件格式为gbk,则隐式转换不存在问题。   
# coding=gbk   
   
s = u'中文'   
print s.encode('gbk')
  文件读写
  只是ASCII或者gbk编码格式的的文件读写,比较简单,读写如下:
  # coding=gbk   
   
f = open('c:/intimate.txt','r') # r 指示文件打开模式,即只读   
s1 = f.read()   
s2 = f.readline()   
s3 = f.readlines() #读出所有内容   
   
f.close()   
   
f = open('c:/intimate.txt','w') # w 写文件   
f.write(s1)   
f.writelines(s2) # 没有writeline   
f.close()
  f.writelines不会输出换行符。   
unicode文件读写:   
# coding=gbk   
import codecs   
   
f = codecs.open('c:/intimate.txt','a','utf-8')   
f.write(u'中文')   
s = '中文'   
f.write(s.decode('gbk'))   
f.close()   
   
f = codecs.open('c:/intimate.txt','r','utf-8')   
s = f.readlines()   
f.close()   
for line in s:   
     print line.encode('gbk')
  
  总结
  首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
  decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicode编码。
  encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串转换成gb2312编码。
  在某些IDE中,字符串的输出总是出现乱码,甚至错误,其实是由于IDE的结果输出控制台自身不能显示字符串的编码,而不是程序本身的问题。
  如在UliPad中运行如下代码:
  s=u"中文"   
print s
  会提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。
  将最后一句改为:print s.encode('gb2312')
  则能正确输出“中文”两个字。
  若最后一句改为:print s.encode('utf8')
  则输出:\xe4\xb8\xad\xe6\x96\x87,这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。
  Updated at: 2008.11.05
  另外,代码中字符串的默认编码与代码文件本身的编码一致,如:
  s='中文'
  如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。 这种情况下,要进行编码转换,都需要先用decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特 定的编码方式时,都是使用的系统默认编码创建的代码文件,在这篇文章中可以看到如何获得系统的默认编码。
  如果字符串是这样定义:
  s=u'中文'
  则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关。因此,对于这种情况做编码转换,只需要直接使用encode方法将其转换成指定编码即可。
  如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断:
  isinstance(s, unicode) #用来判断是否为unicode

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-59157-1-1.html 上篇帖子: 【Python脚本】Python创建删除文件-----------我的第一个Python脚本 下篇帖子: 基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表