awk完成两个文件的关联Join 高级用法

先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取。



NR指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。



FNR只的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意思。



有两个简单的文件:



[liuxiaowen@getway tmp]$ cat a.txt
1,a-1
2,a-2
3,a-3
4,a-4
[liuxiaowen@getway tmp]$ cat b.txt
2,b-2
4,b-4
5,b-5



上面第一个命令中,awk只读取一个文件,因此NR和FNR是一样的;



第二个命令有两个文件,从NR=5开始读取第二个文件b.txt。



由这点可以得出一个规则:当NR==FNR时候,读取到的内容为第一个文件的内容,当NR!=FNR时候,读取到的内容是第二个文件的。



看下面的命令:



[liuxiaowen@getway tmp]$ awk -F’,’ ‘NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}’ b.txt a.txt
1,a-1
2,a-2 b-2
3,a-3
4,a-4 b-4
从输出的结果来看,已经将两个文件通过第一列的值join起来,准确的说是a.txt left outer join b.txt.



解释一下这个命令:



第一部分:



NR==FNR{a[$1]=$2;}
a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的b.txt),以b.txt中的$1作为数组索引号,以b.txt中的$2作为数组的值;



因此,第一部分过后,有了一个数组a,具体的值为 a[2]=”b-2″, a[4]=”b-4″, a[5]=”b-5″



再看第二部分:



NR!=FNR{print $0,a[$1]}
当NR!=FNR时候,也就是读取第二个文件的内容(a.txt),print $0(打印a.txt中的内容),以及a[$1],这里的含义是以a.txt中的$1为索引号,去数组a中获取值,因为之前数组a中的索引号有2,4,5;因此a.txt中第一列为2和4的记录从数组a中获取到了值,1,3,5在数组a中不存在。



如果是将两个文件做内关联:



[liuxiaowen@getway tmp]$ awk -F’,’ ‘NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}’ b.txt a.txt

2,a-2 b-2
4,a-4 b-4
变了一个条件:NR!=FNR && a[$1]



读取第二个文件的内容,并且第二个文件的$1在数组中存在,也可以写成 $1 in a



[liuxiaowen@getway tmp]$ awk -F’,’ ‘NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}’ b.txt a.txt

2,a-2 b-2
4,a-4 b-4

1、同时指定多个分割符
这时应该把分隔符写成放到方括号中,如$awk -F’[ :/t]’ ‘{print $1,$3}’ test



此时指定了空格,:号,tab三个作为分隔符



2、awk的key的变态用法
awk ‘{a[$1,”/t”, $2] += $4} END {for (uin in a) printf(“%s/t%d/n”, uin, a[uin]) }’ test
用$1”/t”$2组成一维数组的key,这样可以用这种方式来处理很多复杂的二维数据逻辑



3、awk 的范围模板
范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。



如$ awk ‘/root/,/mysql/’ test将显示root第一次出现到mysql第一次出现之间的所有行。



4、awk的重定向
awk 可使用shell的重定向符进行重定向输出,如:$ awk ‘$1 = 100 {print $1 > “output_file” }’ test。上式表示如果第一个域的值等于100,则把它输出到output_file中。也可以用»来重定向输出,但不清空文件,只做追加操作。



这样可以利用重定向,可以把不同的结果集写入到不同的文件里
比如,我经常要跑出vip1,2,3,4,5,6的6份文件,那么就可以写一个脚本,一次性都跑出来了










5、 awk -F” ” ‘NR == FNR { a[$1] = $2 } NR > FNR { if (a[$1]!=””){ a[$1] = $2 - a[$1]; if(a[$1] > 0 && $2 == 2) print $0;} }’ test test1

Category linux