|
为了使文章更具可读性,本文将正则表达式冗长的 语法介绍 放在了文章的末尾。
一、正则表达式简介
正则表达式(RegExp)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(元字符)。
1、运算符的优先级
正则表达式运算符的优先级顺序由高到低依次为:
- 转义符:\
- 括号和中括号:(),(?:),(?=), []
- 限定符:*,+,?,{n},{n,},{n,m}
- 定位点和序列:^,$,\元字符,字符
- 替换:|
字符具有高于替换运算符的优先级,使得 m|food 匹配 m 或 food。若要匹配 mood 或 food,请使用括号创建子表达式,即 (m|f)ood。
2、常用验证规则
匹配汉字:[\u4e00-\u9fa5]
二、re 模块简介
re 模块提供了 Perl 风格的正则表达式模式。Perl 5 对标准正则表达式增加了几个附加功能,re 模块也支持其中的大部分。
1、Raw String
正则表达式使用反斜杠 \ 来代表特殊形式或用作转义字符,这里跟 Python 的语法冲突,因此,Python 只好用 \\\\ 匹配 \,因为正则表达式中如果要匹配 \,需要用 \ 来转义,变成 \\,而 Python 语法中又需要对字符串中每一个 \ 进行转义,所以就变成了 \\\\。
为了使正则表达式具有更好的可读性,Python 特别设计了 Raw String。Raw String 以 r 作为字符串的前缀,如 r"\n" 表示字符 \ 和 n。
- 并非所有的正则表达式都需要使用 Raw String,但 compile 方法必须以 r 作为字符串的前缀;
- 对于其他方法(如 match、search 等 )而言,是否以 r 作为字符串的前缀并不影响结果。
2、正则表达式对象
compile(RegExp [, flags]) 可以把正则表达式编译成一个正则表达式对象。其中,RegExp 为正则表达式,flags 为编译标志。
import re
html = re.compile(r"]*)?>[\s\S]*") # 匹配 HTML 标记(1)
3、编译标志
编译标志控制表达式的匹配方式。多个标志可以通过 | 来指定,如 re.I | re.M 被设置成 I 和 M 标志。
标志
含义
S 或 DOTALL
使 . 匹配包括换行在内的所有字符
I 或 IGNORECASE
使匹配对大小写不敏感
L 或 LOCALE
做本地化识别匹配
M 或 MULTILINE
多行匹配,影响 ^ 和 $
X 或 VERBOSE
提高正则表达式的可读性 X 标志的作用:
- 不在字符集中的空白字符将被忽略。这使得:dog | cat 和可读性差的 dog|cat 相同,但 [a b] 将匹配字符 a、b 或空格。
- 可以把注释放到正则表达式当中。注释从 # 开始到行末结束。
Xhtml = re.compile(r'''# 匹配 HTML 标记(2)
]*)?> # 开始标签
[\s\S]* # 标签内的文本
# 同名结束标签
''', re.X) # 同样匹配 HTML 标记,方法(2)的可读性比(1)高了很多。
4、执行匹配
方法
用途
match(RegExp, string [, flags])
从字符串的开始匹配一个模式,成功则返回 MatchObject 实例,否则返回 None
search(RegExp, string [, flags])
在整个字符串内查找模式匹配,成功则返回 MatchObject 实例,否则返回 None
findall(RegExp, string [, flags])
获取所有匹配的子串,并把它们作为一个列表返回
finditer(RegExp, string [, flags])
获取所有匹配的子串,并把它们作为一个迭代器返回 若已将正则表达式 RegExp 编译成了正则表达式对象 RegPat,还可以使用 RegPat.match(string) 执行匹配。
string = '''Hello World!
'''
match_1 = re.match("\s\S*",string)
match_2 = re.match("\S*",string)
search_1 = re.search("\s\S*",string)
search_2 = Xhtml.search(string)
print(match_1, "\n", match_2, end = "\n-------------\n ")
print(search_1, "\n", search_2)
None
-------------
|
|
|