文字列の類似性に最適なアルゴリズムは何ですか?
アドレスに基づいてさまざまなWebページのコンテンツを一意に識別するプラグインを設計しています。 したがって、次のようなアドレスを1つ持つことができます。 1 someawesome street, anytown, F100 211 後で、このアドレスがわずかに異なる形式で見つかる場合があります。 1 someawesome street, F100 211, またはおそらく曖昧な someawesome street F100 これらは技術的には同じアドレスですが、ある程度の類似性があります。a)検索を実行するために各アドレスに一意の識別子を生成し、b)非常に類似したアドレスがいつ表示されるかを把握したいと思います。 どのアルゴリズム/テクニック/文字列メトリクスを見るべきですか?レーベンシュタイン距離は明らかな選択のように見えますが、ここで役立つ他のアプローチがあるかどうかは興味があります。