文本处理之 awk

awk对于大部分人都是相当的陌生。即便一个对Linux比较熟悉的人，也未必知道awk。为什呢？因为awk与其它大多数Linux命令不同，无法从名字上看出它到底是干什么的。实际上，awk是它的三个作者姓氏的首字母合写，他们是：Aho(阿尔佛雷德·艾侯)、Winberger(彼得·温伯格)和Kernighan(布莱恩·柯林汉)，绝对都是牛人。

awk是一种文本处理工具，它的目的是编写小巧但充满表达力的程序，把文本的输入变换为文本的输出。现今的Linux发行版所附带的awk实际上很新，是GNU的重写版本，也叫GNU awk，程序名是gawk。

使用方法

awk微型语言的解释器是awk命令。在Linux中awk实际上是gawk的一个符号连接。为了兼容性，请在任何时候都使用awk这个命令。

awk的命令格式为:

awk [-F fs] [-v var=value] [-f progfile | 'prog'] [file ...]

参数“-F fs”允许awk更改其字段分隔符；参数“-v var=value”可以指定变量“var”的初始值为“value”；参数“-fprogfile”为指定程序文件，而“'prog'”则为直接的程序代码，它们可以同时存在；参数“file”就是awk的输入文件了，允许有多个。

awk程序的核心思想是模式（pattern)/行为（action）对儿这个概念，也叫模式驱动编程。模式一般是关系或正则表达式，用于与输入的每条记录进行匹配；而行为则是对模式匹配到的记录的处理方法，采用与C类似的语法，并由一对大括号“｛｝”括起来。

模式或行为可以省略其中一个。如果省略模式，则行为将被应用到每条输入记录；如果省略行为，则默认操作是在标准输出上打印匹配到的记录。所以，awk程序的基本结构有以下三种情况：

awk 'pattern {action }' 如果模式匹配，则执行行为

awk 'pattern ' 如果模式匹配，则在标准输出上打印记录

awk ' {action }' 针对每条记录，执行行为。

第一个 awk

1 让我们继续，开始使用 awk，以了解其工作原理。在命令行中输入以下命令：

$ awk '{ print }' /etc/passwd

文本处理之 awk

您将会见到 /etc/passwd 文件的内容出现在眼前。现在，解释 awk 做了些什么。调用 awk 时，我们指定 /etc/passwd 作为输入文件。

然后没有指定pattern，所以是awk '{action }' 第三种情况，则会针对每条记录，执行行为{print}

所得到的结果与与执行cat /etc/passwd完全相同。

文本处理之 awk

2 在命令行输入以下命令：awk -F: '{print $1,$2,$3}' /etc/passwd | head -3

文本处理之 awk

默认的情况下，awk会将文本中的一行视为一个记录，而将一行中一个或多个非空白字符组成的单词视为字段，也就是不指定-F 参数默认就是用空格来分割字段。现在指定: 作为分隔符。

这里通过$1引用第一人字段，类似地$2表示第二个字段，$3表示第三个字段.... $0则表示整个记录。内置变量NF记录着字段的个数，所以$NF表示最后一个字段

3 命令行输入：awk -F: '{print $NF}' /etc/passwd | head -3

文本处理之 awk

同理 $(NF-1)表示倒数第二个字段：

文本处理之 awk

NF =7 表示总共七个字段。

awk提供了很多的内置变量，都非常有用。除了前面说的$0,$1,$2,...$NF 等，还有如下：

变量名	说明
FILENAME	当前输入文件的名称。如果是来自标准输入，则为空字符串。
$0	当前记录的内容
$1、$2、$3…… $n	当前记录内的字段，最大值n为内置变量NF的值。
FS	字段分隔符，正则表达式描述，默认为空格“ ”。
RS	输入记录分隔符，默认为“\n”。
NF	当前记录的字段数。
NR	已经读入的记录数。
FNR	当前输入文件的记录数。注意与NR的不同，它会针对不同的输入文件重新计数。
OFS	输出字段分隔符，默认为空格“ ”。
ORS	输出记录分隔符，默认为“\n”。