フレーズ:
素早い茶色のキツネが怠惰な犬を飛び越えます[A]
そして
Uickブラウンフォックスが怠惰な犬をジャンプします[B]
AをBに変換するために必要な単一文字の追加、削除、または置換の最小数を計算することにより、Levenshtein Distanceアルゴリズムを使用して類似性を判断することで比較できます。
中間表現、またはおそらくレーベンシュタイン距離のコーディングスキームがあるかどうかを知りたいです。2つのフレーズ間で使用するのではなく、文字インデックスが比較に影響を与えないように、単一のフレーズに適用されるコーディングのみ。
Bでは、Aと比較して 'q'が欠落しています。通常の文字列比較は、単一の文字オフセットのために、一致'The '
して失敗し'uick brown fox...'
ます。レーベンシュタイン距離を使用して、より寛容な比較のために元のフレーズAと比較できますが、私の場合、2つのフレーズはなく、1つだけです。
だから、私は情報のパケットで文を明確にコーディングするいくつかの方法を探しています、ローカルの順序などを維持する小さな真実のアトム(文字ごとに1つのパケットを考えているのですか?)間違っています。それ以降の文字には影響しません。
一意のフレーズはそれぞれ、唯一の一意のエンコード/中間表現であるSet A'
とにマップする必要がありB'
ます。AとBのレーベンシュタイン距離の計算は、セットの共通部分の計算と同じになりますA' = B'
。
あるいは、この問題に解決策がない場合(そしてこれが確かに研究の盛んな領域にマップされている場合、私は驚かないでしょう)、その解決できないことについての説得力のある議論/証拠です。