awk、grep、またはsortを使用して、bash内の部分的な重複を削除する方法を教えてください。
やってみた sort -u FILE | uniq -w20
しかし、それは本当に信頼できません。
入力:
http://www.website.com/1.file
http://www.website.com/2.file
http://www.website.com/3.file
http://www.someotherwebsite.com/1.file
http://www.someotherwebsite.com/2.file
http://www.someotherwebsite.com/3.file
期待される出力:
http://www.website.com/3.file
http://www.someotherwebsite.com/3.file
2
「部分的な重複を削除する」という意味を明確にしてください。
—
gogators
サンプル入力と希望の出力を提供してください。また、解決策は、一般的なテキストが何であるかを事前に知ることができますか、それとも最長の一般的な文字列を見つけるべきですか?その文字列は行の先頭に固定する必要がありますか?入力に異なる共通部分を持つ複数の異なるグループが含まれる可能性はありますか?それとも、入力ごとに単一の共通文字列があるのですか?
—
Eric Renouf
@EricRenouf完了しました。それは似たようなパスを持つURLのリストです。
—
user669761
URLにもディレクトリがありますか、それともホストとファイルだけですか?
—
Eric Renouf
@EricRenoufホストとファイルだけではありません。
—
user669761