设为首页 收藏本站
查看: 2576|回复: 0

[经验分享] 正则表达式:Python 模块 re 简介

[复制链接]

尚未签到

发表于 2015-4-22 11:49:14 | 显示全部楼层 |阅读模式
  为了使文章更具可读性,本文将正则表达式冗长的 语法介绍 放在了文章的末尾。

一、正则表达式简介
  正则表达式(RegExp)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(元字符)。

1、运算符的优先级
  正则表达式运算符的优先级顺序由高到低依次为:


  • 转义符:\  

  • 括号和中括号:(),(?:),(?=), []  

  • 限定符:*,+,?,{n},{n,},{n,m}  

  • 定位点和序列:^,$,\元字符,字符  

  • 替换:|
  字符具有高于替换运算符的优先级,使得 m|food 匹配 m 或 food。若要匹配 mood 或 food,请使用括号创建子表达式,即 (m|f)ood。

2、常用验证规则

  匹配汉字:[\u4e00-\u9fa5]


二、re 模块简介
  re 模块提供了 Perl 风格的正则表达式模式。Perl 5 对标准正则表达式增加了几个附加功能,re 模块也支持其中的大部分。

1、Raw String
  正则表达式使用反斜杠 \ 来代表特殊形式或用作转义字符,这里跟 Python 的语法冲突,因此,Python 只好用 \\\\ 匹配 \,因为正则表达式中如果要匹配 \,需要用 \ 来转义,变成 \\,而 Python 语法中又需要对字符串中每一个 \ 进行转义,所以就变成了 \\\\。
  为了使正则表达式具有更好的可读性,Python 特别设计了 Raw String。Raw String 以 r 作为字符串的前缀,如 r"\n" 表示字符 \ 和 n。


  • 并非所有的正则表达式都需要使用 Raw String,但 compile 方法必须以 r 作为字符串的前缀;  

  • 对于其他方法(如 match、search 等 )而言,是否以 r 作为字符串的前缀并不影响结果。
2、正则表达式对象
  compile(RegExp [, flags]) 可以把正则表达式编译成一个正则表达式对象。其中,RegExp 为正则表达式,flags 为编译标志。
  

import re  
html = re.compile(r"]*)?>[\s\S]*") # 匹配 HTML 标记(1)
  

3、编译标志
  编译标志控制表达式的匹配方式。多个标志可以通过 | 来指定,如 re.I | re.M 被设置成 I 和 M 标志。

标志
含义
S 或 DOTALL
使 . 匹配包括换行在内的所有字符
I 或 IGNORECASE
使匹配对大小写不敏感
L 或 LOCALE
做本地化识别匹配
M 或 MULTILINE
多行匹配,影响 ^ 和 $
X 或 VERBOSE
提高正则表达式的可读性  X 标志的作用:


  • 不在字符集中的空白字符将被忽略。这使得:dog | cat 和可读性差的 dog|cat 相同,但 [a b] 将匹配字符 a、b 或空格。  

  • 可以把注释放到正则表达式当中。注释从 # 开始到行末结束。
  

Xhtml = re.compile(r'''# 匹配 HTML 标记(2)  
]*)?>   # 开始标签
  
[\s\S]*                # 标签内的文本
  
            # 同名结束标签
  
''', re.X)             # 同样匹配 HTML 标记,方法(2)的可读性比(1)高了很多。
  

4、执行匹配

方法
用途
match(RegExp, string [, flags])
从字符串的开始匹配一个模式,成功则返回 MatchObject 实例,否则返回 None
search(RegExp, string [, flags])
在整个字符串内查找模式匹配,成功则返回 MatchObject 实例,否则返回 None
findall(RegExp, string [, flags])
获取所有匹配的子串,并把它们作为一个列表返回
finditer(RegExp, string [, flags])
获取所有匹配的子串,并把它们作为一个迭代器返回  若已将正则表达式 RegExp 编译成了正则表达式对象 RegPat,还可以使用 RegPat.match(string) 执行匹配。
  

string = '''Hello World!  

      

  •   
  • 大数据
      

  
'''
  

  
match_1 = re.match("\s\S*",string)
  
match_2 = re.match("\S*",string)
  
search_1 = re.search("\s\S*",string)
  
search_2 = Xhtml.search(string)
  

  
print(match_1, "\n", match_2, end = "\n-------------\n ")
  
print(search_1, "\n", search_2)
  

  

None  
  
-------------
  

  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-59596-1-1.html 上篇帖子: 【推荐分享】大量Python电子书籍教程pdf合集下载 下篇帖子: 喝着啤酒学Python(1):搭建环境
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表