何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と(ほとんど)まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。
以下はそのようなリストの1つです。
- スター・ウォーズ:エピソードIV新しい希望| StarWars.com
- スターウォーズエピソードIV-新しい希望(1977)
- スター・ウォーズ:エピソードIV-新しい希望-腐ったトマト
- スター・ウォーズ:エピソードIV-新しい希望をオンラインで無料で見る
- スター・ウォーズ(1977)-グレイテスト・フィルム
- [REC] 4つのポスターが船外機による死を約束-SciFiNow
このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$
が受け入れられます。
私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。