【awk】重複行の削除

awkで重複行を削除するには、配列の概念を利用すると簡単にできます。

fileA

aaaaaaa
bbbbbbb
ccccccc
aaaaaaa
aaaaaaa
bbbbbbb

aaaaaaa

bbbbbbb

ccccccc

aaaaaaa

bbbbbbb

$ cat fileA | awk "!a[$0]++"
aaaaaa
bbbbbb
cccccc

// ファイルを作るのめんどくさかったからこっちで実験でも可
$ echo -e "aaaaaa\nbbbbbb\ncccccc\naaaaaa\naaaaaa\nbbbbbb" | awk '!a[$0]++'
aaaaaa
bbbbbb
cccccc

$ cat fileA | awk "!a[$0]++"

aaaaaa

bbbbbb

cccccc

// ファイルを作るのめんどくさかったからこっちで実験でも可

$ echo -e "aaaaaa\nbbbbbb\ncccccc\naaaaaa\naaaaaa\nbbbbbb" | awk '!a[$0]++'

aaaaaa

bbbbbb

cccccc

これは何をしているかと言うと、awkの行出力の条件が、「!a[$0]++」は、一回目の「aaaaaa」行を処理する際にはa[‘aaaaaa’]=0と評価され、それの否定なのでtrueとなり出力されます。
二回目の「aaaaaa」行の処理の際には、一つ前の処理で1が追加されているので、a[‘aaaaaa’]=1と評価され、それの否定なのでfalseになりその行は出力されません。