エントリの長いリストを持つテキストファイルとしての参照があり、それぞれに2つ(またはそれ以上)のフィールドがあります。
最初の列は参照のURLです。2列目はタイトルで、エントリの作成方法によって多少異なる場合があります。存在する場合と存在しない場合がある3番目のフィールドについても同じです。
最初のフィールド(参照URL)が同一のエントリを特定しますが、削除しません。私は知ってsort -k1,1 -u
いますが、それは最初のヒットを除くすべてを自動的に(非対話的に)削除します。どちらを保持するかを選択できるように、私に通知する方法はありますか?
同じ最初のフィールド(http://unix.stackexchange.com/questions/49569/
)を持つ3行の以下の抜粋では、追加のタグ(ソート、CLI)があり、行#1と#3を削除するため、行2を保持します。
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
そのような「重複」を特定するのに役立つプログラムはありますか?次に、行#1と#3を個人的に削除して手動でクリーンアップできますか?