タグ付けされた質問 「levenshtein-distance」

11
最も近い文字列の一致を取得する
複数の文字列をテスト文字列と比較し、それによく似た文字列を返す方法が必要です。 TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN CHOICE B : THE RED COW JUMPED OVER THE RED COW CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW (これを正しく行った場合)「テスト文字列」に最も近い文字列は「選択C」になります。これを行う最も簡単な方法は何ですか? これをVB.net、Lua、JavaScriptを含む複数の言語に実装する予定です。この時点で、疑似コードは受け入れられます。特定の言語の例を提供できれば、これもありがたいです!

2
Pythonでの高性能ファジー文字列比較、Levenshteinまたはdifflibを使用[終了]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 4年前休業。 この質問を改善する 私は、臨床メッセージの正規化(スペルチェック)を行っています。このチェックでは、指定された各単語を900,000単語の医学辞書と照合します。時間の複雑さ/パフォーマンスについてもっと心配しています。 あいまいな文字列比較を行いたいのですが、どのライブラリを使用するかわかりません。 オプション1: import Levenshtein Levenshtein.ratio('hello world', 'hello') Result: 0.625 オプション2: import difflib difflib.SequenceMatcher(None, 'hello world', 'hello').ratio() Result: 0.625 この例では、どちらも同じ答えを出します。この場合、どちらも同じように機能すると思いますか?

5
スペルチェッカーで提案されるアルゴリズムはどれですか。
単語の候補を伴うスペルチェッカーを実装する場合、通常どのようなアルゴリズムが使用されますか? 最初に、入力した新しい単語(辞書に見つからない場合)を、辞書の他のすべての単語からのレーベンシュタイン距離と比較して上位の結果を返すことを確認することは理にかなっていると思いました。ただし、これは非常に効率が悪く、辞書全体を繰り返し評価する必要があるようです。 これは通常どのように行われますか?


1
Jaro-WinklerとLevenshteinの距離の違いは?[閉まっている]
クローズ。この質問はもっと焦点を合わせる必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てるようにします。 6年前に閉鎖されました。 この質問を改善する 複数のファイルからの何百万ものレコードのあいまいマッチングを行う必要があるユースケースがあります。そのための2つのアルゴリズムを特定しました。Jaro-WinklerとLevenshteinの編集距離です。 両方を調べ始めたとき、2つの正確な違いが何であるかを理解することができませんでした。Levenshteinは2つの文字列間の編集数を示し、Jaro-Winklerは0.0から1.0の間の正規化されたスコアを提供しているようです。アルゴリズムがわかりませんでした。 どちらかのアルゴリズムを使用する必要があるため、この2つのアルゴリズムの根本的な違いを知る必要があります。 次に、この2つのアルゴリズムのパフォーマンスの違いについて知りたいと思います。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.