设为首页 收藏本站
查看: 694|回复: 0

[经验分享] grep、egrep以及正则表达式的使用

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-12-1 09:19:16 | 显示全部楼层 |阅读模式
正则表达式是linux学习里面很重要的一部分内容,也算是一个难点,元字符多,组合方法也各种各样,每个人学习理解方法不一样,其中遇到的问题也各不相同,    学习正则表达式首先要会的是grep以及egrep命令的使用。
grep是Globalsearch Regular expression an Print out the line的缩写,是一种文本搜索的工具,可以根据用户指定的“模式(pattern)”对目标文本进行搜索过滤,显示出被“模式”匹配到的行。这里要
说的一点是,grep匹配到的是符合模式的一整行,例如一行中有2位数同时有3位数,模式中匹配的是2位数,这一行是会被匹配到的,
1
    grep [OPTIONS] PATTERN [FILE...]




option
作用
-i
匹配时忽略字符大小写
-o
仅显示匹配到的内容
-v
取反,显示没有匹配到的行
--color
高亮显示匹配到的内容
-A#
显示出匹配的行之后的下文#行
-B #
显示出匹配的行之前的上文#行
-C #
显示出匹配的行前后的#行
-E
使用扩展的正则表达式,后面会有介绍
      这只是一些常用的选项,具体使用过程中遇到,可以使用man命令查看

    这仅仅是grep的简单用法,要想充分利用grep需要配合正则表达式。

    正则表达式分为两类:
           基本正则表达式
           扩展正则表达式
    基本正则表达式由能够实现不同功能的元字符组成,下面按照元字符不同的作用分别说明,为了方便看出匹配到的内容,我们先给grep一个别名,就是用上面的--color选项,能够高亮显示出匹配到的内容,匹配到的内容会以紫色显示。
    字符匹配:用来对文本中的字符进行匹配的元字符
.
匹配任意单个字符
[]
匹配集合内的任意单个字符
[^]
匹配集合外的任意单个字符
其中[]有几个特殊的表示方法
[0-9],[[:digit:]]集合内的任意单个数字
[a-z],[[:lower:]]集合内的任意单个小写字母
[A-Z],[[:upper:]]集合内的任意单个大写字母
[a-zA-Z],[[:alpha:]]集合内的任意单个字母
[[:space:]]单个空白字符
[a-zA-Z0-9],[[:alnum:]]]集合内的任意单个字母数字
[[:punct:]]集合内的任意单个特殊字符
    . : 匹配任意单个字符
         112014_1357_grepegrep1.jpg

       aab,ab,acb等都可以匹配到,即为搜索xlblog.txt中含有“ab中间有一个任意字符”的行
       [ ]:匹配指定集合中的任意单个字符;
              [[:digit:]], [0-9]:匹配单个数字;
         112014_1357_grepegrep2.jpg
              [[:lower:]], [a-z]:匹配单个小写字母;
         112014_1357_grepegrep3.jpg
              [[:upper:]], [A-Z]:匹配单个大写字母;
         112014_1412_grepegrep4.jpg
              [[:alpha:]], [a-zA-Z]:匹配单个字母;
         112014_1357_grepegrep5.jpg
            [[:alnum:]], [0-9a-zA-Z]:匹配单个数字字母,两个都可以实现这个功能;
      112014_1412_grepegrep6.jpg
              [[:space:]]:匹配单个空格,这一行因为有个空白字符,所以被匹配出来了,因为是空白字符,就不能高亮显示了;
         112014_1412_grepegrep7.jpg
              [[:punct:]]:即标点符号;
         112014_1357_grepegrep8.jpg
       [^]:匹配指定集合外的任意单个字符,匹配任意非数字字母的字符,@和空白字符被匹配到了;
         112014_1357_grepegrep9.jpg
    次数匹配,用于对前面紧邻的单个字符所能够出现的次数做出限定;

*
匹配其前面的字符任一次,即表示0次、1次或多次
\?
匹配其前面的字符0次或者一次
\+
匹配其前面的字符出现至少1次
\{m\}
匹配其前面的字符m次,这是准确到多少次的
\{m,n\}
匹配其前面的字符至少m次,至多n次
         *:匹配其前面的字符任一次,即表示0次、1次或多次;

         112014_1412_grepegrep10.jpg
       *前面的字符a出现0次或者多次,而且其后紧跟字符b,所以ab,aab,aaaaab,bc等都可以匹配到,acb就不能匹配到,因为a与b之间不是相邻的。

    \?:匹配其前面的字符0次或者一次,这里要注意只有紫色的部分匹配到了,虽然前面有很多个a,但是因为ab匹配到了,所以整行显示出来了。
   112014_1412_grepegrep11.jpg

    \+:匹配其前面的字符出现至少1次;
112014_1357_grepegrep12.jpg

    \{m\}:匹配其前面的字符m次,这是准确到多少次;
112014_1357_grepegrep13.jpg

    \{m,n\}:匹配其前面的字符至少m次,至多n次;
112014_1412_grepegrep14.jpg
        ab,aab,aaab,aaaaaab像这样的都是可以匹配到的,对于aaaaab可能会有疑问,其实只是匹配到了aaab,因为aaab在aaaaaab这一行中,所以整行都显示出来了,紫色的部分是匹配到的内容。
       那么“.*”代表什么呢?很明显,匹配任意单个字符,所有的字符都被匹配到了;
   112014_1412_grepegrep15.jpg
位置锚定:

^行首锚定,出现在模式的最左侧
$行尾锚定,出现在模式的最右侧
\<或者\b词首锚定,出现在要查找的单词模式的最左侧
\>或者\b词尾锚定,出现在要查找的单词模式的最右侧
        ^: 行首锚定,写在模式的最左侧,^ab’即为匹配以a开头的后面跟了b的字符;
       112014_1412_grepegrep16.jpg          
            $:行尾锚定,写在模式的最右侧,ab$’即为以b结尾前面有a的字符;
112014_1412_grepegrep17.jpg                
      ^$: 空白行,这个很容易理解,行首遇到了行尾,那就是什么都没有了,即空白行;
112014_1412_grepegrep18.jpg

      \<:词首锚定, \b,出现在要查找的单词模式的左侧;
       “\<ab”只有作为一个单词的词首的ab才能被匹配上,像xab,aab就不会匹配到;
112014_1412_grepegrep19.jpg
        \>:词尾锚定, \b,出现在要查找的单词模式的右侧;
  “ab\>”只有作为一个单词的词尾的ab才能匹配上 ;   112014_1412_grepegrep20.jpg
       如cab,aaab,像abb,acb,abc就不能被匹配上;
        \<pattern\>:匹配单词;
       如:\<abc\>,即匹配单词abc,因为以a为词首以b为词尾中间是c的只能是单词abc 112014_1412_grepegrep21.jpg
        分组:\(需要分组的内容\),分组是为了后面可以引用前面模式匹配到的内容,这里就要介绍下后向引用的概念了。
        后向引用:模式中,如果使用实现了分组,在某行文本的检查中,如果\(\)中的模式匹配到了
某内容,此内容后面的模式中可以被引用;
                            \1,\2, \3
模式自左而右,引用第#个左括号以及与其匹配右括号之间的模式匹配到的内容;
如:“\(a.c\).*\1”:\(\)中匹配到的内容会被引用到后面的\1的位置,前面匹配到了什么内容,后面也必须是这个内容;
abcxyabc,前面匹配到了abc那后面也必须是abc,axcxyabc,前面匹配到了axc,后面没有axc,所以这个字段不会被匹配到。
112014_1412_grepegrep22.jpg

egrep及扩展的正则表达式
扩展正则表达式有两种使用方法            
1
      # grep -E 'pattern' file...



1
      # egrep 'pattern' file...




扩展正则表达式的元字符:
       字符匹配:
.
匹配单个字符
[]
匹配集合中的单个字符
[^]
匹配集合之外的单个字符

   扩展正则表达式的字符匹配是和正则表达式的一样的
       次数匹配:
*
匹配其前面的字符任一次
?
匹配其前面字符0次或1次
+
匹配其前面的字符至少1次
{m}
匹配其前面的字符m次
{m,n}
匹配其前面的字符m-n次
{m,}
匹配其前面的字符至少m次
{0,n}
匹配其前面的字符0-n次
从这我们可以发现,扩展正则表达式只是将正则表达式的\号去掉了而已,其他的用法都是一样的,\在模式中起到了一个转译的作用,而在扩展正则表达式中则默认转译了,不需要在加转译符号

       位置锚定:
^
行首锚定
$
行尾锚定
\<或者\b
词首锚定
\>或者\b
词尾锚定
扩展正则表达式的位置锚定也是和正则表达式一样的,这里的\不能省略。

       分组:
          ():同样不需要转译符\,也和正则表达式一样支持后向引用\1,\2\3,…

       或者:
                 a|b: a或者b
                 ab|cd:ab或者cd
这是扩展正则表达式所独有的元字符,表示“或者”,需要注意的是“|”符号左右两边是一个整体。

最后介绍一下fgrep
fgrep [option] 'string' file...
fgrep不支持正则表达式,只支持字符串的搜索,即string为什么匹配到的就是什么,是一种快速搜索文本的命令。
       从上面可以看出扩展的正则表达式要比正则表达式简洁,而且还能实现更多的功能,所以我们要多多使用扩展正则表达式



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-34197-1-1.html 上篇帖子: 如何让secureCRT显示Linux的颜色及使用SecureCRT传输文件 下篇帖子: Linux容器虚拟化LXC的使用 表达式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表