多くのユーザーにとって興味深いと思われる、アドレスの解析/ジオコーディングに関連する詳細な質問を少し紹介します。
したがって、本質的に私は、誰かがオープンソースのジオコーディングおよび/または住所修正ツールのインストール、構築、または拡張の経験を持っているかどうか知りたいと思っています。
ジオコーダー:ジオコモンズによって維持されていると思われるUS 2.0のイニシアチブは知っていますが、他のオープンソースツールや他のより良い代替策があるかどうか、システムを効果的に拡張できるかどうか、私が知らない開発があるかどうかはわかりません。
私の目標は次のとおりです。
- ユーザーが単一の入力フィールドから入力した位置データを、リアルタイムで可能な限り大量に自動的に解析および/または標準化できる、高精度のツールが必要です。
- 入力データは、郵便番号、郡、市、通り、住所、州の1つ以上の住所コンポーネントです。
- また、入力データは、カスタムジオネームデータベースから検索できる必要があります。たとえば、標準の住所変数ではない、近所の名前またはUSPS以外の場所の名前を入力できます。
これらの目標を考えると、そのようなルックアップを実行する単一のフォームフィールドが与えられた場合、各ユーザーはさまざまな形式でデータを入力する一方で、他の要素は一般的にスペルミスに分類されるという事実をよく知っています。
有効な住所/範囲のコアとして国勢調査データベースを利用することに加えて(Geocoder:USが行うすべてのことを信じています)、既知の「エイリアス」を定義するある種の機能は、既知のストリート名のスペルミスに理想的だと思います。同じことが当てはまります。ユーザーがAveと比較してAve.と比較して、Avenueと比較して、Geocoder:USツールでこのようなエイリアス機能が完全に可能であるとは考えないでください。
上記の要素で実際に大部分の問題を解決できる可能性がありますが、入力を十分に高い%ageに一致させることができない場合、ある種の効果的なファジーマッチングが存在する必要があると思います。
想定されるいくつかのルールに基づいて入力データを個別の要素に効果的に解析でき、「一致スコア」コンポーネントのタイプを使用してファジー一致させる場合、一致しない要素は、すでに高い「一致」した要素に基づいている必要があります。程度。
例:ジオコーディングが可能な限り効果的であると想定します。ユーザーが結果を見つけようとしている「エリア」を絞り込むために、最初に入力フィールドから個々のデータ要素を抽出する必要があります。私の見解では、これは、5桁の数字が郵便番号であると想定できることを意味します。郵便番号と一致する都市名などの別の要素がある場合、「エリア」が正しいという想定...次に、残りの部分を使用します完全な、部分的な、またはあいまいな一致を見つけ、スコアを付け、可能な結果をリストするためのデータ。
いずれにせよ-私の方向性を調整する可能性のあるアドバイス、パフォーマンス統計、または今後の開発(ポストマッチング2.0を拡張マッチング機能の手段として使用するなど)とともに誰かがここでアドバイスを提供していただければ幸いです