正则表达式 grep egrep

hk8lo 发表于 2015-9-1 09:19:04

Linux 文本处理三剑客
grep : 文本过滤工具
sed：文本编辑器(以行为编辑对象单位) stream editor
awk：文本报告生成器； linux上awk的实现为gawk

grep：Global search REgular Expression and Print out the line
作用：文本搜索工具，根据用户指定的“模式(pattern)”逐行去搜索目标文本，打印匹配到的行。
模式：由正则表达式的元字符及文本字符所编写的过滤条件；
元字符：字符不表示其字面意义，而用于表示通配或控制功能

正则表达式分为两类：
基本正则表达式 BRE
扩展正则表达式 ERE

grep命令：
语法：grep PATTERN
参数：
--color=auto：对匹配到的字符串高亮显示
-i：忽略大小写
-n：输出行号
-v：反向选择，显示没有‘搜索字符串’的行
-o：仅显示能够被模式匹配到的字符串本身
-q：静默模式
-E：使用扩展的正则表达式
基本正则表达式的元字符：
字符匹配：
.：匹配任意单个字符；
[]: 匹配指定范围内的任意单个字符
[^]: 匹配指定范围外的任意单个字符，^在[]中代表反向选择

特殊符号

[:alnum:]
代表英文大小写字符及数字，0-9，A-Z，a-z
[:alpha:]
代表任何英文小写字符 a-z

[:blank:]
空格键与[Tab]键

[:cntrl:]
键盘上的控制按键，CR，LF，Tab，Del
[:digit:]
数字 0-9
[:lower:]
小写字符 a-z

[:upper:]
大写字符 A-Z
[:punct:]
代表标点符号 “ ’ ? ! ；：$#

次数匹配：用于指定其次数的字符的后面 *: 重复0次或多次前一个字符 \?: 重复0次或1次前一个字符 \+: 重复1次或多次前一个字符 \{m\} : 连续重复m次前一个字符 \{m,n\}: 重复m到n个前一个字符    \{0,n\}: 重复至多n次前一个字符    \{m,\}: 重复至少m次前一个字符 .*: 匹配任意长度的任意字符位置锚定：^word: 行首锚定，待查找字符串word在行首 word$: 行尾锚定，待查找字符串word在行尾 \<，\b: 词首锚定，待查找单词的左侧 \>，\b：词尾锚定，待查找单词的右侧分组： 分组的小括号中的模式匹配到的内容，会在执行过程中被正则表达式引擎记录下来，并保存内置的变量中，这些变量分别是\1, \2 … 后向引用: 使用变量引用前面的分组括号中的模式所匹配到的字符。示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
#显示重复0次或多次前一个字符(可以是0次，所以只有字母b也符合)
# grep 'a*b' test_grep
aabbccdd
343kkkbord

#重复0次或1次前一个字符
# grep 'a\?b' test_grep
aabbccdd
aaabcd
abcde
343kkkbord

# 重复1次或多次前一个字符
# grep 'a\+b' test_grep
aabbccdd
aaabcd
abcde

# 连续重复2次前一个字符
# grep 'a\{2\}b' test_grep
aabbccdd
aaabcd #此行符合重复2次aaab

#\{0,n\}: 重复至多n次前一个字符
$ grep 'a\{0,2\}b' test_grep
aaabc
aabbcc
abababab
abcabcabc
bcdef

#匹配行首是aaa的行
$ grep '^aaa' test_grep
aaabc

#匹配行尾是bab结束的行
$ grep 'bab$' test_grep
Abababab

#查找单词are所在的行
$ grep '\bare\b' test_grep
how are you?
how old are you?
where are you from?

#分组的使用
$ grep '$aba$.*\1' test_grep
aba666abab #结尾的b是不会被匹配到的

扩展正则表达式：简化命令操作，支持查找模式内管道命令，元字符不用转义字符grep家庭有三个命令grep ：基本正则表达式    -e :扩展正则表达式    -f :不支持正则表达式egrep 扩展正则表达式fgrep 不支持正则表达式扩展正则表达式的元字符字符匹配： .：匹配任意单个字符；
[]: 匹配指定范围内的任意单个字符
[^]: 匹配指定范围外的任意单个字符，^在[]中代表反向选择
次数匹配：
*: 重复0次或多次前一个字符    ?: 重复0次或1次前一个字符    +: 重复1次或多次前一个字符    {m} : 连续重复m次前一个字符    {m,n}: 重复m到n个前一个字符
   .*: 匹配任意长度的任意字符位置锚定：    ^word: 行首锚定，待查找字符串word在行首 word$: 行尾锚定，待查找字符串word在行尾 \<，\b: 词首锚定，待查找单词的左侧 \>，\b：词尾锚定，待查找单词的右侧分组：() 后向引用：\1, \2, ... 模式中应用管道命令 a|b C|cat：不表示Cat或cat，而表示C或cat；          要写成(C|c)at    egrep 'a|b' test.txt
练习：
1、显示/etc/passwd文件中以bash结尾的行；

1
2
3
roger@oc3137372501 test]$ grep 'bash$' /etc/passwd
root:x:0:0:root:/root:/bin/bash
roger:x:500:500:Roger.Wang:/home/roger:/bin/bash

2、显示/etc/passwd文件中的两位数或三位数；

1
2
3
4
5
6
7
$grep '\<\{2,3\}\>' /etc/passwd
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
.....
gdm:x:42:42:gdm system account:/var/lib/gdm:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
roger:x:500:

3、显示'netstat -tan'命令结果中以‘LISTEN’后跟0个、1个或多个空白字符结尾的行；

1
2
3
4
5
6
7
8
9
10
$ netstat -tan | grep 'LISTEN *'
tcp    0    0 0.0.0.0:1445             0.0.0.0:*                LISTEN
tcp    0    0 0.0.0.0:902             0.0.0.0:*                LISTEN
tcp    0    0 0.0.0.0:139             0.0.0.0:*                LISTEN
tcp    0    0 127.0.0.1:52719          0.0.0.0:*                LISTEN
tcp    0    0 0.0.0.0:111             0.0.0.0:*                LISTEN
tcp    0    0 127.0.0.1:8979          0.0.0.0:*                LISTEN
tcp    0    0 0.0.0.0:48500             0.0.0.0:*                LISTEN
tcp    0    0 127.0.0.1:59669          0.0.0.0:*                LISTEN
.......

4、添加用户bash，testbash, basher以及nologin用户(nologin用户的shell为/sbin/nologin)；而后找出/etc/passwd文件中用户名同shell名的行；

1
2

#grep '$^\<.*\>$.*\1$' /etc/passwd

5、显示当前系统上root、centos或user1用户的默认的shell和UID；

1
2

# egrep '^(root|centos|user1)' /etc/passwd | cut -d ':' -f 1,3,7

6、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行；

1
2

# egrep '\b\w+\b.*$.*$' /etc/rc.d/init.d/functions

7、使用echo输出一个路径，而后egrep找出其路径基名；进一步地：使用egrep取出其目录名；       处理的不合适，有待继续研究
1
2
3
4
#路径基名 basename ：
# echo /home/roger/test | egrep -o '[^/]*$'
#目录名 dirname ：
#echo /home/roger/test | egrep -o '[/].*[/]'

8、找出ifconfig命令执行结果中1-255之间的数字；

1
# ifconfig | egrep '\b\b|\b\b|\b1\b|\b2\b|\b25\b'

如有错误，敬请指正！

页: [1]

运维网's Archiver

正则表达式 grep egrep