文字列のペア間の何十億ものレーベンシュタイン距離を計算する必要があるアプリケーションがあります。文字列は短い(長さが70)DNAシーケンスで、4文字のみで構成されています。また、文字列の1つが固定されていると仮定することもできます。つまり、1つの固定文字列を10億の他の文字列と比較しています。
レーベンシュタイン距離の動的プログラミングの実装はであることを知っています。改善の余地があるかどうか知りたいのですが。私はこれらの2つのアルゴリズムを見つけました:
- アルゴリズムはBerghelらによる編集距離 です。しかし、私はが小さいと仮定することはできないので、何の利点もないかもしれません
- Andoni et alによる時間での 近似。しかし、私はこれに関して2つの懸念があります。
- このアルゴリズムも実際には高速ですか?
- んの最悪の場合には、計算の編集距離があることを意味倍実際のもの?その場合は多すぎます。
適用できる他のアルゴリズム/アイデア/アプローチを知っていますか?