オープンソースアドレス修正/ファジーマッチングを備えたパーサー


8

多くのユーザーにとって興味深いと思われる、アドレスの解析/ジオコーディングに関連する詳細な質問を少し紹介します。

したがって、本質的に私は、誰かがオープンソースのジオコーディングおよび/または住所修正ツールのインストール、構築、または拡張の経験を持っているかどうか知りたいと思っています。

ジオコーダー:ジオコモンズによって維持されていると思われるUS 2.0のイニシアチブは知っていますが、他のオープンソースツールや他のより良い代替策があるかどうか、システムを効果的に拡張できるかどうか、私が知らない開発があるかどうかはわかりません。

私の目標は次のとおりです。

  1. ユーザーが単一の入力フィールドから入力した位置データを、リアルタイムで可能な限り大量に自動的に解析および/または標準化できる、高精度のツールが必要です。
  2. 入力データは、郵便番号、郡、市、通り、住所、州の1つ以上の住所コンポーネントです。
  3. また、入力データは、カスタムジオネームデータベースから検索できる必要があります。たとえば、標準の住所変数ではない、近所の名前またはUSPS以外の場所の名前を入力できます。

これらの目標を考えると、そのようなルックアップを実行する単一のフォームフィールドが与えられた場合、各ユーザーはさまざまな形式でデータを入力する一方で、他の要素は一般的にスペルミスに分類されるという事実をよく知っています。

有効な住所/範囲のコアとして国勢調査データベースを利用することに加えて(Geocoder:USが行うすべてのことを信じています)、既知の「エイリアス」を定義するある種の機能は、既知のストリート名のスペルミスに理想的だと思います。同じことが当てはまります。ユーザーがAveと比較してAve.と比較して、Avenueと比較して、Geocoder:USツールでこのようなエイリアス機能が完全に可能であるとは考えないでください。

上記の要素で実際に大部分の問題を解決できる可能性がありますが、入力を十分に高い%ageに一致させることができない場合、ある種の効果的なファジーマッチングが存在する必要があると思います。

想定されるいくつかのルールに基づいて入力データを個別の要素に効果的に解析でき、「一致スコア」コンポーネントのタイプを使用してファジー一致させる場合、一致しない要素は、すでに高い「一致」した要素に基づいている必要があります。程度。

例:ジオコーディングが可能な限り効果的であると想定します。ユーザーが結果を見つけようとしている「エリア」を絞り込むために、最初に入力フィールドから個々のデータ要素を抽出する必要があります。私の見解では、これは、5桁の数字が郵便番号であると想定できることを意味します。郵便番号と一致する都市名などの別の要素がある場合、「エリア」が正しいという想定...次に、残りの部分を使用します完全な、部分的な、またはあいまいな一致を見つけ、スコアを付け、可能な結果を​​リストするためのデータ。

いずれにせよ-私の方向性を調整する可能性のあるアドバイス、パフォーマンス統計、または今後の開発(ポストマッチング2.0を拡張マッチング機能の手段として使用するなど)とともに誰かがここでアドバイスを提供していただければ幸いです

回答:


7

あなたはギスグラフィーを試すことができます。これには、住所パーサー、ジオコーダー、およびリバースジオコーダーが含まれます。(バッチには無料サービスを使用せず、サーバーにインストールしてください)。同義語を使用した全文検索では、スペルチェックも役立つでしょう。大容量が必要な場合でも問題はありません。GISはいくつかの形式(XML、JSON、PHP、Python、Ruby、YAML、GeoRSS、およびAtom)のWebサービスとして利用できるため、スケーリングが可能です。

ギスグラフィー


6

私はこれについていくらか経験があります。でSmartyStreets(私は仕事場所)、我々はと呼ばれるアドレス検証ソフトウェア作るLiveAddressを。(実際にはすべてWebベースです。ダウンロードやインストールの必要はありません。)

住所の検証と標準化の課題はたくさんあります。自分でアドレスを特定のコンポーネントに解析しようとしたり、「あいまい検索」を実装したりすると、さらに扱いにくくなります。しかし、恐れることはありません... フリーフォームの住所検証を実行するための基本的な手順を非公式に公開しました。私たちのサービスはオープンソースではありませんが、コミュニティと専門知識を共有し、品質とパフォーマンスの新しい基準を設定することについては、かなりオープンです。

とにかく、あなたはそのページがいくらか役立つと思うでしょう。私たちのようなAPIは、全国的に3つのデータセンターに地理的に分散しているため、毎秒数千ものリクエストを処理します。LiveAddressは、「あいまい一致」を処理し、有効な結果のみを返し、欠落している部分を埋め、スペルミスを修正できる必要があります。

これは、公式のUSPSエイリアスと非公式のストリート名またはロケーション名を考慮に入れ、それらを公式の配信可能なエンドポイントと照合します。ただし、独自のカスタム名の場合は、それを独自のデータベースに組み込む必要があります。

最後に、オープンソースツールは優れた無料のツールですが、サービス、パフォーマンス、全体的な品質のいくつかの側面と交換することになるでしょう。サービスを社内でホストする場合でも、サービスを維持し、重いペイロードのように聞こえるものの要求に対応する必要があります。

住所についてのご質問には、個人的にお答えさせていただきます。あなたの前の仕事は非常に興味深いものであり、適切なリソースがなければ圧倒されるかもしれません。


3

アドレスの標準化(別名アドレス修正、アドレス正規化、アドレス解析)は簡単な作業ではありません。あなたが素早い指と十分な創造性を持っているなら、非常に細かいREGEXを作り出すことができ、それは非常に良い仕事をすることができます。ただし、結果があいまいになる可能性のあるエッジケースをうまく処理できません。その理由は、コンテキストの欠如です。必要な精度を達成したことを知るためには、正しい結果がどのように見えるかを知る必要があります。確かに、100kのアドレスのリストを取り、それらの70%を正確に解析できる(REGEXのみを使用)ことは、それらのアドレスを解析しないよりも優れています。しかし、残りの「ハード」アドレスを解析するのにどのくらい時間がかかりますか?長い間。コンテキスト、つまり「正解」が不明であるため、特殊な解析関数を多数必要とします。「コンテキスト」がわかっているため、ここでアドレス検証が役立ちます。完全に標準化および修正されたアドレスは既知であり、マスターリストを使用して結果を比較できます。

私はSmartystreetsで住所確認を担当しているので、これをよく聞かれます


2

住所検証サービスが直面する課題の1つは、一部の住所は有効であるが、USPSでは配信できないことです。私はUSPSが宅配便を提供していない小さな町に住んでいます。すべての居住者は私書箱を使用する必要があります。ただし、UPSとFedExはどちらも自宅への配送を提供しているため、明らかに住所は意味があります。;-)

とにかく、SmartyStreetsの「LiveAddress」デモが私の自宅の住所を認識しません。これは、USPS検証に依存するAPIに依存したいかどうかに疑問を投げかけます。私が始めているプロジェクトのオープンソースルートを考えています。


1

私はData LadderによるDataMatchに出会いました。これは、ビジネス全体で使用される優れたファジーマッチングおよび住所標準化/住所解析ツールであり、この状況で非常にうまく機能します。新しいユーザーには無料の試用版を提供しています

実際、IBMおよびSASによる主要なソフトウェアツールと比較するソフトウェアの独立した検証済み評価が行われました。オーストラリアのカーティン大学データリンケージセンターで行われた調査では、440万件のレコードのマッチングをシミュレーションしました。正確性の観点からプロバイダーが何を持っているかを特定しました(見つかった一致数と使用可能な一致数。誤った一致数)

  1. DataMatch Enterprise、最高の精度(> 95%)、非常に高速、低コスト
  2. IBM Quality Stage、高精度(> 90%)、非常に高速、高コスト(> $ 100K)
  3. SASデータフラックス、中精度(> 85%)、高速、高コスト(> 100K)

1

libpostalと呼ばれるGitHubプロジェクトがあり、統計NLPとオープンデータを使用して世界中の住所の解析/正規化を行います。GitHubアクティビティのほとんどは2015年から2016年にかけてのようですが、特に解析の面では、一見の価値があるかもしれません。


0

USPSには現在ツールがあるようです!

今日それについて知りました。また、無料のようです。

https://www.usps.com/business/web-tools-apis/welcome.htm


それを使用した後、戻ってきて、私たちにそれを使用する方法についてより長い説明をお願いします。
Brad Nesom

しましょう。私はすぐにそれで作業する必要があります。
kyurthich

リンクが移動し、現在は関連がないようです:「USPS WebTools®APIにより、外部のeコマースショッピングカートと配送ソフトウェアが貴重なUSPS®データにアクセスできます–無料です!配送料金から追跡情報、パッケージのスケジュールまでピックアップ。WebToolsを使用すると、US PostalService®での発送がこれまでになく簡単になります。今すぐ開始するか、詳細を読んでください。」
PolyGeo

彼らのように見えますが、まだそれを持っている: usps.com/business/web-tools-apis/...
kyurthich

しばらく前にこれを確認しましたが、利用規約では、実際にメールを送信している実行中のアドレスのみに使用を制限していると思います。(技術的には、一般的なリストのスクラブとメンテナンスには使用できませんでした。)
AdamsTips
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.