Mapperzにリンクされている論文は非常に優れており、おそらく興味のある引用がたくさんありますが、文字列の一致とジオコーディングのプロセスに対するその重要性を説明するのに非常に良い仕事をしているとは思いません。彼らは簡単にSoundexに言及しましたが、Soundexが唯一のオプションではなく、IMOのアドレスに最適なオプションでさえありません。彼らはトピックに関連するかなりの数の引用をリストアップしたので、それらの論文はあなたの興味を引くでしょう。
Stats Exchangeサイトのこのスレッドは、2組の文字列のあいまい一致について説明しています。アドレスを一致させる場合、同じ手法がすべて適用されます。特に、Soundexよりも編集距離を使用する方が理にかなっていると思います。特にSoundexアナログを持たない住所の詳細の場合はそうです。2つの文字列間のレーベンシュタイン距離の計算はそれほど複雑ではなく、インターネット上に浮かぶたくさんの例があります(こちらはPython の例です)。
過去1時間、ESRIがどのようにスペルの感度と異なる候補と一致スコアを実装するかを見つけようとしていました。簡単な説明だけを見つけました(このPDFと9.3のオンラインヘルプセクションで見つけた最高の説明)。だから誰かが私にいくつかのより詳細なドキュメントを教えてくれたら、私はOPと同様に感謝するでしょう。