python正则模块 re

10000小时 · 发表于 2018-4-22 07:41:19

正则:描述匹配的规则

正则就是用一些具有特殊含义的符号组合到一起（正则表达式）来描述字符或者字符串的方法。或者说：正则就是用来描述一类事物的规则

import re

#####方法################

re.findall('匹配规则','匹配对象'):匹配返回所有满足匹配条件的结果,放在列表里;

re下的最常用方法

print(re.findall('c','chencs sfd d c dsfc'))

#===>['c','c', 'c', 'c']

#####规则#####正则表达式################

######匹配字符###

#\w匹配字母数字下划线

print(re.findall("\w","qwa123_\n\t\r&^%@!#$%^&"))

#===>'q','w','a','1','2','3','_']

#\W匹配非字母数字下划线

print(re.findall("\W","qwa123_\n\t\r&^%@!#$%^&"))

#====>['','','','\n','','\t','','\r','','&','^','%','@','!','#','$','%','^','&','']

#\s匹配任意空白字符(\n\t\r\f)

print(re.findall("\s","qwa123_\n\t\r&^%@!#$%^&"))

#====>['','','','\n','','\t','','\r','','']

#\S匹配任意非空白字符

print(re.findall("\S","qwa123_\n\t\r&^%@!#$%^&"))

#===>['q','w','a','1','2','3','_','&','^','%','@','!','#','$','%','^','&']

#\d匹配任意数字

print(re.findall("\d","qwa123_\n\t\r&^%@!#$%^&"))

#===>['1','2','3']

#\D匹配任意非数字

print(re.findall("\D","qwa123_\n\t\r&^%@!#$%^&"))

#['q','w','a','','','_','','\n','','\t','','\r','','&','^','%','@','!','#','$','%','^','&','']

#\A匹配以指定字符串开头=====^

print(re.findall('\Achen','mynameischen'))

print(re.findall('\Achen','chenismyname'))

print(re.findall('^chen','chenismyname'))

#===>[]

#===>['chen']

#\Z匹配以指定字符结尾 ====$

print(re.findall('chen\Z','chenismyname'))

print(re.findall('chen\Z','mynameischen'))

print(re.findall('chen$','mynameischen'))

#==>[]

#==>['chen']

#^chen$以chen开头,以chen结尾,即匹配以chen

print(re.findall('^chen$','chen'))

#===>['chen']

#####重复匹配#####指定字符的匹配次数#################

# . ? * .* .*? + {m,n} | ()

.默认表示除了换行符之外的任意一个字符,在findall中使用re.DOTALL可以让.匹配包括\n的任意字符

print(re.findall('a.c','abca1caAcaaaaaca\nc'))

#====>['abc','a1c','aAc','aac']

print(re.findall('a.c','abca1caAcaaaaaca\nc',re.DOTALL))

#====>['abc','a1c','aAc','aac','a\nc']

?:代表?左边的第一个字符重复0次或1次

print(re.findall('ab?','aababbabbbabbbbabbbb'))

#===>['a','ab','ab','ab','ab','ab']

*:代表*左边的第一个字符重复0次或无穷次

print(re.findall('ab*','aababbabbbabbbbabbbba1bbbbbbb'))

#===>['a','ab','abb','abbb','abbbb','abbbb','a']

+:代表+左边的第一个字符重复1次或无穷次

print(re.findall('ab+','aababbabbbabbbbabbbba1bbbbbbb'))

#==>['ab','abb','abbb','abbbb','abbbb']

{m,n}:代表左边的第一个字符重复m次到n次

#{m}:取m次

#{0,}:0次到无穷次

#{0.1}:0次到1次

#{1,}:1次到无穷次

#{1,3}:1次到3次

print(re.findall('ab{1,3}','aababbaababbb'))

#===>['ab','abb','ab','abbb']

.*:匹配任意长度,任意的字符,贪婪匹配,尽可能长的匹配(引号内的是一个字符串,空格也是字符串)

print(re.findall('a.*c','acasfca123c1c44c25c6casdfgdghgfdf'))

#====>['acasfca123c1c44c25c6c']

.*?非贪婪匹配

print(re.findall('a.*?c','acasfca123c1c44c25c6casdfgdghgfdf'))

#==>['ac','asfc','a123c']尽可能短的匹配

():分组my_(Joy)_chen以my_Joy_chen进行匹配,匹配成功后只保留括号内的内容

(?:)?:取消分组效果

print(re.findall('(alex)_sb','alex_sbasdfsafdafdaalex_sb'))

#===>['alex','alex']

#<li><aid="blog_nav_sitehome"class="menu"href="http://www.cnblogs.com/">博客园</a></li>

print(re.findall(

'href="(.*?)"',