正则表达式：Python 模块 re 简介

61581229 · 发表于 2015-4-22 11:49:14

　　为了使文章更具可读性，本文将正则表达式冗长的语法介绍放在了文章的末尾。

一、正则表达式简介
　　正则表达式（RegExp）是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（元字符）。

1、运算符的优先级
　　正则表达式运算符的优先级顺序由高到低依次为：

转义符：\　　
括号和中括号：()，(?:)，(?=)， []　　
限定符：*，+，?，{n}，{n,}，{n,m}　　
定位点和序列：^，$，\元字符，字符　　
替换：|

　　字符具有高于替换运算符的优先级，使得 m|food 匹配 m 或 food。若要匹配 mood 或 food，请使用括号创建子表达式，即 (m|f)ood。

2、常用验证规则

　　匹配汉字：[\u4e00-\u9fa5]

二、re 模块简介
　　re 模块提供了 Perl 风格的正则表达式模式。Perl 5 对标准正则表达式增加了几个附加功能，re 模块也支持其中的大部分。

1、Raw String
　　正则表达式使用反斜杠 \ 来代表特殊形式或用作转义字符，这里跟 Python 的语法冲突，因此，Python 只好用 \\\\ 匹配 \，因为正则表达式中如果要匹配 \，需要用 \ 来转义，变成 \\，而 Python 语法中又需要对字符串中每一个 \ 进行转义，所以就变成了 \\\\。
　　为了使正则表达式具有更好的可读性，Python 特别设计了 Raw String。Raw String 以 r 作为字符串的前缀，如 r"\n" 表示字符 \ 和 n。

并非所有的正则表达式都需要使用 Raw String，但 compile 方法必须以 r 作为字符串的前缀；　　
对于其他方法（如 match、search 等）而言，是否以 r 作为字符串的前缀并不影响结果。

2、正则表达式对象
　　compile(RegExp [, flags]) 可以把正则表达式编译成一个正则表达式对象。其中，RegExp 为正则表达式，flags 为编译标志。
　　

import re　　
html = re.compile(r"]*)?>[\s\S]*") # 匹配 HTML 标记（1）
　　

3、编译标志
　　编译标志控制表达式的匹配方式。多个标志可以通过 | 来指定，如 re.I | re.M 被设置成 I 和 M 标志。

标志
含义
S 或 DOTALL
使 . 匹配包括换行在内的所有字符
I 或 IGNORECASE
使匹配对大小写不敏感
L 或 LOCALE
做本地化识别匹配
M 或 MULTILINE
多行匹配，影响 ^ 和 $
X 或 VERBOSE
提高正则表达式的可读性　　X 标志的作用：

不在字符集中的空白字符将被忽略。这使得：dog | cat 和可读性差的 dog|cat 相同，但 [a b] 将匹配字符 a、b 或空格。　　
可以把注释放到正则表达式当中。注释从 # 开始到行末结束。

　　

Xhtml = re.compile(r'''# 匹配 HTML 标记（2）　　
]*)?> # 开始标签
　　
[\s\S]*             # 标签内的文本
　　
         # 同名结束标签
　　
''', re.X)          # 同样匹配 HTML 标记，方法（2）的可读性比（1）高了很多。
　　

4、执行匹配

方法
用途
match(RegExp, string [, flags])
从字符串的开始匹配一个模式，成功则返回 MatchObject 实例，否则返回 None
search(RegExp, string [, flags])
在整个字符串内查找模式匹配，成功则返回 MatchObject 实例，否则返回 None
findall(RegExp, string [, flags])
获取所有匹配的子串，并把它们作为一个列表返回
finditer(RegExp, string [, flags])
获取所有匹配的子串，并把它们作为一个迭代器返回　　若已将正则表达式 RegExp 编译成了正则表达式对象 RegPat，还可以使用 RegPat.match(string) 执行匹配。
　　

string = '''Hello World!　　

云
　　
大数据

　　
'''
　　

　　
match_1 = re.match("\s\S*",string)
　　
match_2 = re.match("\S*",string)
　　
search_1 = re.search("\s\S*",string)
　　
search_2 = Xhtml.search(string)
　　

　　
print(match_1, "\n", match_2, end = "\n-------------\n ")
　　
print(search_1, "\n", search_2)
　　

　　

None　　
　　
-------------
　　

　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 正则表达式：Python 模块 re 简介

浏览过的版块

扫码加入运维网微信交流群