住所の形式が異なる場合、または住所の1つが間違っている場合の住所の照合方法を知りたい。
これまでのところ、さまざまなソリューションを見つけましたが、それらはかなり古く、あまり効率的ではないと思います。より良い方法がいくつかあると確信しているので、もしあなたが私が読むための参考文献を持っているなら、それは複数の人に興味があるかもしれない主題であると確信しています。
私が見つけた解決策(例はRにあります):
レーベンシュタイン距離。1つの単語を別の単語に変換するために挿入、削除、または変更する必要がある文字数に相当します。
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
音素の比較
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
スペルコレクター(最終的にはPeter Norvigのようなベイジアンコレクター)を使用しますが、アドレスではあまり効率的ではないと思います。
Googleの提案を使用することを考えましたが、同様に、個人の郵便住所ではあまり効率的ではありません。
機械学習の教師ありアプローチを使用することは想像できますが、ユーザーのスペルミスのリクエストを保存する必要がありますが、これは私にとって選択肢ではありません。