|
苏州IT之家群:46213669,技术交流,招聘就业,职业发展,欢迎苏州IT人士加入。
一、awk的格式
会对文件逐行读取进行处理。以行为操作对象。
awk [options] 'script' files......
awk[options] 'pattern {actions}' inputfile1 inputfile2.....
awk会用file文件来匹配模式pattern,如匹配则用执行action。如没有模式,则无条件扫行action,如果没有action,则显示所有匹配pattern的内容。
options:
-F:输入文件分隔符,可以指定输入文件的分隔符,默认是空格。行(以换行符结束的行称为一个记录)分段后每一个域(字段)可以用参数引用,$1表示第一段,$2表示第二段,$0表示整条记录。
例:awk -F: '{print $1,$5}' test1.txt 会显示test1中的第一段和第五段的所有内容,段是以:(冒号)分隔。
-v:定义并赋值一个变量。
例:awd -v test="this is a test" {print $test} 定义一个变量test ,并赋值,并在处理中引用。
pattern:模式
一般用表达式来当成pattern。
正则表达式:格式为/正则表达式/ 。如: awk -F: '/^r/{print $1}' /etc/passwd 显示passwd文件中行首字母为r的行中的第一个字段。会显示出所有r开头的用户名,如root
表达式:各种表达式,如运算表达式,条件表达式,模式匹配表达式(用运算符~(匹配)和~!(不匹配))等。
例: awk -F: '$3>500{print $1,$3}' /etc/passwd 显示passwd文件中第3段即用户号大于500的行中的第1段和第3段的内容,即用户名和用户号。
awk -F: '$7~"bash"{print $1,$7} /etc/passwd 匹配表达式。
模式,模式:指定一个行的范围,即匹配范围。该语法不能包括BEGIN和END模式。例: awk '/root/,/mysql/' test 将显示root第一次出现到mysql第一次出现之间的所有行
BEGIN:即awk在第一行记录读取之前先执行一次begin中的内容。让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
例:awk 'BEGIN{test="hello" print test}' 可在begin中直接给变量赋值。
END:awk在读取完所有行(记录)后再执行一次end中的内容。让用户在最后一条输入记录被读取之后发生的动作。
actions:操作
表达式:各种表达式。
控制语句:如if else ,while等。
变量或数组赋值
内置函数
复合语句
输出语句:如print ,printf()
print
print打印函数不需要加$符。
printf()与C语言相同
用法:printf format,item1,item2,...... //format是格式
format:
%c:显示字符的ASCII码
%d,%i:显示十进制数
%e:科学计数法显示数值
%f:显示浮点数
%s:显示字符串
%u:显示无符号整数
%g :以科学计数法或浮点数的格式显示数值。
%%:显示%自身
\n:换行
N:显示宽度
-:左对齐,默认是右对齐
+:显示数值符号
例: awk '{printf "%-10s %10\n",$1,$3}' /etc/passwd 把passwd中的第一个字段的字符串左对齐,并占用十个字符的宽度,第三个字符右对齐,也占十个字符的宽度显示出来,并换行。
重定向
awk可使用shell的重定向符进行重定向输出,如:$ awk '$1 = 100 {print $1 > "output_file" }' test。上式表示如果第一个域的值等于100,则把它输出到output_file中。也可以用>>来重定向输出,但不清空文件,只做追加操作。
输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容,并给NF,NR和FNR等内建变量赋值。如果得到一条记录,getline函数返回1,如果到达文件的末尾就返回0,如果出现错误,例如打开文件失败,就返回-1。如:
$ awk 'BEGIN{ "date" | getline d; print d}' test。执行linux的date命令,并通过管道输出给getline,然后再把输出赋值给自定义变量d,并打印它。
$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test。执行shell的date命令,并通过管道输出给getline,然后getline从管道中读取并将输入赋值给d,split函数把变量d转化成数组mon,然后打印数组mon的第二个元素。
$ awk 'BEGIN{while( "ls" | getline) print}',命令ls的输出传递给geline作为输入,循环使getline从ls的输出中读取一行,并把它打印到屏幕。这里没有输入文件,因为BEGIN块在打开输入文件前执行,所以可以忽略输入文件。
$ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test。在屏幕上打印”What is your name?",并等待用户应答。当一行输入完毕后,getline函数从终端接收该行输入,并把它储存在自定义变量name中。如果第一个域匹配变量name的值,print函数就被执行,END块打印See you和name的值。
$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'。awk将逐行读取文件/etc/passwd的内容,在到达文件末尾前,计数器lc一直增加,当到末尾时,打印lc的值。注意,如果文件不存在,getline返回-1,如果到达文件的末尾就返回0,如果读到一行,就返回1,所以命令 while (getline < "/etc/passwd")在文件不存在的情况下将陷入无限循环,因为返回-1表示逻辑真。
可以在awk中打开一个管道,且同一时刻只能有一个管道存在。通过close()可关闭管道。如:$ awk '{print $1, $2 | "sort" }' test END {close("sort")}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。
system函数可以在awk中执行linux的命令。如:$ awk 'BEGIN{system("clear")'。
fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(""),则刷新所有文件和管道的输出缓冲区。
二、awk环境变量:
FS:读取文本时,所使用的字段分隔符,默认是空格。 用在begin中。
RS:手工指定换行符,输入文本信息所使用的换行符。 用在begin中。
OFS:输出时,所使用的字段分隔符 用在begin中。
ORS:输出时,所使用的换行符。 用在begin中。
NF:当前记录的域数,即当前行的字段数。
NR:awk处理的行数,如有多个文件,会把所有处理的行数都统计出来。
FNR:只统计awk处理的当前文件的行数。不是所有文件。
$n:表示这行中的第n个字段。一行用分隔符分为多个字段。
$0:表示整条记录,即整行。
FILENAME:当前文件名。
ARGC:命令行参数的数目。
ARGIND:命令行中当前文件的位置(从0开始算)。
ARGV:包含命令行参数的数组。
RLENGTH:由match函数所匹配的字符串的长度。
RSTART:由match函数所匹配的字符串的第一个位置。
SUBSEP:数组下标分隔符(默认值是\034)。
三、运算符
赋值运算符:
=
+=
-=
*=
/=
%= 余
^= 指数
**=
++
--
比较关系运算符:
<
>=
!=
==
逻辑关系运算符:
|| 逻辑或
&& 逻辑与
! 逻辑非
模式匹配运算符:
~ 匹配 x~y 如果x被y匹配到则为真。
~! 不匹配
算术运算符:
+
-
*
/
%
in 数组成员
四、语句(和c语言中的用法完全一样)
1、if语句:
if(condition){then-body} else {else-body}
例:awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test。如果$1大于100,则count加一,并打印$1,否则count减一,并打印$1。
2、while和do while语句:
while(condition){ statement; statement;...... }
例:awk '{ i = 1; while ( i |
|
|