ESRIでの大規模なジオコーディングと処理


9

わかりましたので、ESRIの世界で使用しているデータセットの大きさについて、このような非公式のクエリ/調査を行っていると思います...

私は、州全体のデータセットを構築して維持しています。小包レベルですが、システムの小包ごとに複数の郵送先住所があります。多くの場所で、ストリートネットワークまたはUSPS AMS / AISデータから計算された理論上の住所を使用しています。したがって、私のアドレス一覧はおよそ1350万のアドレスであり、毎月または四半期ごとに増加しています。

連続データセットでこれほど大きいアドレス/適切に検索された情報のライブシステムを維持している人はいますか?

他の人がこのような大規模なデータセットをどのように処理しているかについて、協力したり話したりしたいと思います。交差や空間結合などのタスクを実行しようとすると、ESRIソフトウェアが爆破しているように見える問題が発生しています。ESRIは、これらの種類の問題は表示されないと述べていますが、9.3.1に戻って以来これらの問題があり、複数のマシンで再作成できるため、私はこれを最初または唯一の人にすることはできません。

現在の私のプラットフォームは、デスクトップ上のESRI ArcGIS 10であり、GEOMETRY空間オブジェクトを使用してSQL2008バックエンド上のArcSDE 9.3.1-sp1と通信しています。だから私は本当にエキゾチックなことは何もしていません。しかし、それでも私には、いくつかの地域ではおそらく限界を押し上げているようです。

[さらに]

私が知りたいのは、これらのデータセットを処理するためのプロセスを最適化するために他の人が何をしているのかです。今後は毎月100万レコードのアップワードを追加する予定です。他のプロセスの実行を開始し、さらに分析するためにデータをリンクすると、複雑な結合の処理を開始するので、ジオコーディングなどは問題になりません。さて、Only_FIDを使用してIntersects / Overlays / Identitiesからデータを出力し、薄い中間テーブルを結合することもできます。しかし、そのテーブルの作成を分割して征服しようとすると、ソースデータを作業領域に分割する必要があるという問題が発生し始めますが、マージできない繰り返しIDSがあります。そのため、全体を簡単に作成することができない小さなデータブロックが残ります。

データを郡ごとの規模に分解し、空間ビューを使用してデータを結合するオプションなどについて考えます。他のユーザーが同じような問題をこのような大規模で小規模に見ている場合に興味があります。足跡。


3
Oracle Spatial(11g)ArcSDEでジオコーディングされ、ArcGISとWebアプリ(内部)で視覚化された6000万の住所。これは良いガイドですジオコードアドレスが、ファジー(ミスマッチアドレス)に関するものではありませんscdhec.gov/gis/presentations/ESRI_Conference_08/tws/workshops/...
Mapperz

私は同意します、ジオコーディングは決して問題ではありませんでした。私の問題は、他のプロセスが非常に困難になるようなcontinuosプロセスが必要なほど大きなデータセットがある場合に発生します。交差、空間結合などの関数/タスク。モデリングのために高度に正規化された環境で他のデータに結合する必要があります。
DEWright、2011年

空間データにインデックスが付けられていますか?ドキュメントによると、SQL ServerはBツリーインデックスを使用します。GISTインデックスを使用してデータをPostGISデータベースにロードして、パフォーマンスを比較してください。これにより、SQL Serverの問題かどうかがわかります。
Sean

そのようなことには何の問題もありませんが、私が全体的に見ているのは、非常に多くのポイントを処理し、長時間実行される深い関数を実行するときに、それらを最適化する方法を検討することです。そして、私は他の大規模なユーザーが何をしているかについて興味があります。
DEWright、2011年

質問がその制限のないものである場合は、言い換えてコミュニティーwikiを作成する必要があります。
Sean

回答:


1

それは(古い)自由回答形式の質問なので、自由回答形式の回答を提供します。データベースを適切に使用すると、時間を大幅に節約できます。何かをする明白な方法は必ずしもないが、最速、私は最近、Oracleの行の多くを削除したい場合のために、ちょうど送ることが判明:delete from TABLE1 where ID = 123各機能が非常に遅かったと私は行うことができますいくつかの空想のOracleのものがあることのためにそれ作るために桁違いに速いです。

したがって、基本的に、ボトルネックである特定の問題を見つけた場合は、そのボトルネックに関する具体的な質問を専門家に依頼してください。したがって、おそらくここにあるArcGIS側(またはESRIフォーラム、またはESRIサポート)の場合は、データベース側の問題(そしてそこで行うと通常は高速になります)の場合は、httpで質問したいと思います。 ://www.stackoverflow.com


それほどオープンエンドではありません。しかし、このトピックを処理するためのより良い理論的な方法を探しています。私の最近の道では、自分のSQL2008 DBと通信するために自分のあいまい検索ロジックを構築しました。ESRIエンジンへの依存を削除し、十分に調整されたインデックスに依存してこれを高速化しようとします。BINGやGoogleのエンジンの内部については十分に理解できないので、BINGまたはGoogleのエンジンが独自のきめ細かいロジックを使用すると想定することができます。
DEWright

あなたは、彼らの研究論文からグーグルの舞台裏のかなりを把握することができます- research.google.com/pubs/papers.html
GIS-ジョナサン・
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.