设为首页 收藏本站
查看: 1009|回复: 0

[经验分享] Python FAQ3-python中的原始(raw)字符串

[复制链接]
累计签到:2 天
连续签到:1 天
发表于 2018-8-8 12:56:48 | 显示全部楼层 |阅读模式
  本篇源自py2.7.9-docs的faq.pdf中的“3.23 Why can’t raw strings (r-strings) end with a backslash?”
  更准确的说,原始字符串即以r修饰的字符串,不能以奇数个反斜杠结束;
  原始字符串被设计用来作为一些处理器(主要是正则表达式引擎)的输入。这种处理器会认为这种未匹配的末端反斜杠是种错误,所以,原始字符串也就不允许以奇数个反斜杠结束。反过来,他们允许你使用斜杠来表示转义,包括\"表示",\t表示TAB等。当原始字符串用于这些处理器时,这个规则适用。
  如果原始字符串不用于正则表达式等处理器,只是简单的代表一个字符串,那么该串中的\就是\,而不再具有转义的含义,这就是所谓的‘原始’。
  下面我会一步步的解释字符串和原始字符串的区别
  1.用于单独的字符串表示:
  简单字符串中存在\转义行为,而原始字符串中\n就是\n字符
>>> s = "i have\na dream"  
>>> r = r'i have\na dream'
  
>>> print s
  
i have
  
a dream
  
>>> print r
  
i have\na dream
  2.原始字符串用于正则表达式中
  我们使用windows路径来做例子介绍原始字符串的一次转义
>>> path = r"\this\is\a\path\"  
  File "<stdin>", line 1
  
    path = r"\this\is\a\path\"    #原始字符串不允许单数个\结尾,不管是用于正则还是普通字串
  
                             ^
  
SyntaxError: EOL while scanning string literal
  
>>> path = r"\this\is\a\path\ "[:-1]
  
>>> path
  
'\\this\\is\\a\\path\\'        #定义了一个待匹配的字符串
  
>>> reg1 = r'\\this\\is\\a\\path\\' #定义了自然字符串表示的正则表达式
  
>>> import re
  
>>> g = re.match(reg1, path)    #使用自然字符串进行匹配
  
>>> print g.group()
  
\this\is\a\path\               #匹配到了结果,表示真实的\字符可以被自然字符串以\\匹配上
  
>>>                            #\\转义的结果就是\
  3.简单字符串用于正则表达式中
  让我们使用上面的path变量来制作简单字符串用来匹配的例子
>>> reg2 = '\\this\\is\\a\\path\\'  
>>> g = re.match(reg2, path)         #竟然报异常了,根据异常的意思是行尾是虚假的转义
  
Traceback (most recent call last):  #下面我们再探究原因,先把行尾的\\去掉,再次进行匹配
  
  File "<stdin>", line 1, in <module>
  
  File "D:\Python27\lib\re.py", line 137, in match
  
    return _compile(pattern, flags).match(string)
  
  File "D:\Python27\lib\re.py", line 244, in _compile
  
    raise error, v # invalid expression
  
sre_constants.error: bogus escape (end of line)
  

  
>>> reg2 = '\\this\\is\\a\\path'
  
>>> g = re.match(reg, path)         #按照原始字符串的理解,这里应该可以匹配上的,但是没有
  
>>> print g.group()
  
Traceback (most recent call last):
  
  File "<stdin>", line 1, in <module>
  
AttributeError: 'NoneType' object has no attribute 'group'
  为什么会出现差异,又为什么到处都建议正则匹配时要使用r'字符串'呢?
  让我们分析下原始字符串和简单字符串的区别:简单字符串如果想输出‘\’,需要进行转义即'\\'才会输出一个'\';那原始字符串想要输出'\',则直接写即可'\'。
  这里有些乱,我觉得主要在于str、repr在捣乱:
>>> print path                     #这里调用str,人们习惯的显示方式  
\this\is\a\path\
  
>>> path                           #这里调用repr,真实的显示方式(比str的显示仅多了一层转义)
  
'\\this\\is\\a\\path\\'
  让我们全部将真实的显示方式当做参照物,即
  path的真实显示是:'\\this\\is\\a\\path\\'
  简单字符串的正则表达式reg2的真实显示是:'\\this\\is\\a\\path'
  原始字符串的正则表达式reg1的真实显示是:'\\\\this\\\\is\\\\a\\\\path\\\\'
  从真实的显示来看匹配就容易理解的多了,而且没有了原始和简单字符串之分,都看做是正则引擎应用的串。从上面可以看出reg2中\\只能匹配\,而path中是\\,需要像reg1中的\\\\来进行匹配。
  追根溯源向来比较绕,还是简单记住使用规则,匹配路径\字符,需要普通字符串输入4个斜杠(\\\\)匹配上,而原始字符串仅需要2个斜杠(\\)即可匹配上。这也是鼓励使用原始字符串进行正则匹配的原因。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-548694-1-1.html 上篇帖子: 【Python之旅】第六篇(三):Python多线程及其使用方法 下篇帖子: python 点滴记录5:python中,向列表添加元素的方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表