设为首页 收藏本站
查看: 959|回复: 0

[经验分享] Python的字符串操作和Unicode

[复制链接]

尚未签到

发表于 2015-12-1 10:16:09 | 显示全部楼层 |阅读模式
字符串类型
  str:Unicode字符串。采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定,在Python内部存储时没有区别。
  bytes:二进制字符串。由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表示,bytes的每个字节为一个0-255的数字。如果打印的时候,Python会把能够用ASCII表示的部分显示为ASCII,这样方便阅读。bytes几乎支持除了格式化以外的所有str的方法,甚至包括了re模块
  bytearray():二进制可原地变动的字符串。

utf-8编码范围

范围
字节数
存储格式
0x0000~0x007F (0 ~ 127)
1字节
0xxxxxxx
0x0080~0x07FF(128 ~ 2047)
2字节
110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)
3字节
1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)
4字节
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF
5字节
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)
6字节
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
字节顺序标记BOM
  BOM是byte order marker的缩写,

指定编码写入时的规则
  Python在使用'utf-8'编码写入文件时不会写入BOM头,但是如果指定编码'utf-8-sig'则会迫使Python写入一个BOM头。
  使用'utf-16-be'不会写入一个BOM头,但是采用'utf-16'则会写入一个BOM头。
  

>>> open('h.txt','w',encoding='utf-8-sig').write('aaa')  
3
  
>>> open('h.txt','rb').read()
  
b'\xef\xbb\xbfaaa'
  
>>> open('h.txt','w',encoding='utf-16').write('bbb')
  
3
  
>>> open('h.txt','rb').read()
  
b'\xff\xfeb\x00b\x00b\x00'
  
>>> open('hh.txt','w',encoding='utf-16-be').write('ccc')
  
3
  
>>> open('hh.txt','rb').read()
  
b'\x00c\x00c\x00c'
  
>>> open('h.txt','w',encoding='utf-8').write('ddd')
  
3
  
>>> open('h.txt','rb').read()
  
b'ddd'
  

读取时的规则
  如果指定了正确的编码,那么BOM会忽略,否则BOM会显示为乱码或者返回异常。
  

>>> open('h.txt','r').read()  
'锘縟dd'
  
>>> open('h.txt','r',encoding='utf-8-sig').read()
  
'ddd'
  

编码与解码


  •   chr和ord
      

    >>> ord('中')         #20013  
    >>> chr(20013)        #'中'

  •   把Unicode硬编码进字符串中。
      '\xhh':用2位十六进制来表示一个字符
      '\uhhhh':用4位十六进制来表示一个字符:
      '\Uhhhhhhhh':用8位十六进制来表示一个字符
      >>> s = 'py\x74h\u4e2don'        #'pyth中on'

str和bytes, bytearray进行转换
  str.encode(encoding='utf-8')
  bytes(s,encoding='utf-8')
  bytes.decode(encoding='utf-8')
  str(B, encoding='utf-8')
  bytearray(string, encoding='utf-8')
  bytearray(bytes)

文档编码声明
  Python默认使用utf-8编码。
  # -*- coding: latin-1 -*-:表示声明文档为latin-1编码。

帮助函数
  

sys.platform#'win32'  
sys.getdefaultencoding() # 'utf-8'
  
sys.byteorder#'little'
  
s.isalnum()                     #s表示字符串
  
s.isalpha()
  
s.isdecimal
  
s.isdigit()
  
s.isnumeric()
  
s.isprintable()
  
s.isspace()
  
s.isidentifier()                #如果字符串可以用作变量名,那么返回True
  
s.islower()
  
s.isupper()
  
s.istitle()

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145754-1-1.html 上篇帖子: python中的gil是什么? 下篇帖子: leetcode number of 1 bits python
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表