別のレイヤーの別のポイントセットの周りにあるポイントセットのクラスターを見つけますか?


10

特定の種類の建物(x)が別の種類の建物(y)の周りに集まっているかどうかを確認したい。

2つのポイントファイルは異なるレイヤーにあります。

これを行うためにどのツールを使用するかわかりません。

回答:


9

ArcGIS(またはその他のGIS、AFAIK)の標準ツールはどれも正しく機能しません。

このような問題では、「クラスタリング」によって意味を数値化する必要があり、次に確率モデルを推定して、測定されたクラスタリングの程度が偶然の偶然によって生成されたかどうかを評価する必要があります。

続行する方法の一例として、あなたは型の建物の間の典型的な距離の面でクラスタリングを測定することを選択するかもしれないX最も近いタイプの建物のy。これは簡単な計算です。両方の建物のセットを別々のポイントレイヤーで表し、YとXの空間結合を実行するだけです。タイプxの建物ごとに1つのレコードが残っている属性テーブルには、最も近いyまでの距離が含まれます。メジャーとして平均距離を使用できます。

これが偶然の結果であるかどうかをテストすることはより困難です。この設定の一つのもっともらしい解釈は、以前の存在ということであるY型の建物が開発奨励のx比較的近いタイプの建物をYさん。それ以外の場合は、他の建物が出現した場所にxタイプの建物が建てられた可能性があると仮定します。 これにより、次の簡単な順列検定が行われます。Xタイプの建物表示された可能性のあるすべての場所のポイントレイヤーを作成します。このレイヤーは、xと同じ期間に建てられたエリア内のすべての建物の場所である可能性があります建物は(もちろんx建物自体を含めて)ありました。yレイヤーを空間的に結合して、最も近いyタイプの建物までの距離を取得します。残りの計算は属性テーブルで機能します。地理的な計算が行われます。繰り返し行うのは、乱数ジェネレータを使用して、これらすべての建物の単純なランダムサンプルを取得することです。各サンプルには、xタイプの建物と同じ数の要素があります。このサンプルの平均距離を計算します。多くの平均距離統計が得られるまで繰り返します。これらのランダムに取得された平均距離のほとんどすべてが、xに対して測定した平均距離より大きい場合建物を入力すると、xが偶然にクラスター化されていないと結論付けることができます。効果は本物です。

(このような計算は、「R」などの目的に適したプラットフォームでプログラムするのが最適ですが、Excelを含め、ほとんどすべてのコンピューティングソフトウェアをサービスに組み込むことができます。プログラミングは非常に簡単で、ループの記述方法と選択方法を知っているだけです。ランダムに配列からの要素。)

この順列テストアプローチは、この領域での建物開発のパターンを明示的に説明するため、事前にプログラムされたソリューションよりも優れています。これを行わないと、クラスタリングの「重要な」証拠見つかることよくありますが、クラスタリングは道路のパターンや場所などの他の要因によって引き起こされた可能性があるため、それから有用な結論を出すことはできません。開発に適したサイトなど。


1
この返事は少し抽象的だと思います。時間があれば、リアルなイラストを作ってみます。
whuber

Rを使用している場合は、spatstatパッケージ(cran.r-project.org/web/packages/spatstat/index.html)にクラスター分析の外観を与えることをお勧めします。
om_henners

2

もちろん、データ分析方法は、分析を動機付ける実質的な問題に依存する必要があります。

しかし、ここにいくつかのアイデアがあります:

ESRIから:

どのようにマルチ距離空間クラスター分析:リプリーK-機能(空間統計)作品式でi、jは、あなたの建物のxとyを表します。リプリーのK関数は確率論的推論を提供します。

コンピュータサイエンスから:

グーグルできるコロケーションパターン発見のための複雑なアルゴリズムがあります。


「単純なプロットのアイデア」は興味深いですが、それと比較するための何かが必要です。それ自体から有用な情報を抽出することは困難です。リプリーのK関数も便利なツールですが、残念ながら多くの場合、データセットのジオメトリを反映するだけです。線形フィーチャ(道路)に沿って位置する傾向がある郊外または農村地域の住宅では、K関数はこの理由だけで「重要な」クラスタリングを明確に示します。そのため、道路の近くに建てられていること以外、家については何も役に立たないことがわかります。
whuber

@whuberリプリーのK関数の問題を説明してくれてありがとう。2つ目は、株価の推移を見ると、全体的な傾向を上下またはランダムに調べることができます。また、大幅な減少または増加があった時間を特定して、理由を尋ねることもできます。距離の変化に応じて建物の集中がどのように変化するかを示すプロットも、同じ方法で使用できます。これは、ランダムな分布に対する証拠である濃度のスパイクを検索するために使用できます。また、好奇心の強いスパイクのさらなる調査に集中するためにも使用できます。
b_dev

あなたが正しい。私のポイントは、プロット自体はクラスタリングについて何も教えてくれないということです。おそらく(株価ではなく)良い類似点は、米国の州2000〜2010による腎がん症例数のコロプレスマップです。また、州間の人口の変動を考慮していないため、(地理的)クラスタリングについては何もわかりません。同様に、クロスKプロットを解釈するには、適切な正規化または参照が必要です。一般的な傾向、スパイクなどは、すべての建物の場所の地理的パターンを反映しているだけかもしれません。
whuber

@whuberそうですね。上記のコメントを読んだ後、少なくとも説明したとおり、私の簡単なプロットのアイデアはあまり情報を提供しないと判断したので、人々を混乱させないように削除しました。私は今、Joint Count Statisticが問題に取り組む最も簡単な方法であると信じています。
b_dev

2

私はGISでクラスター分析を行ったことがありませんが、XやYの特定のクラスターを表すポイント/ポリゴンを作成した方が簡単かもしれません。たとえば、建物Yを示すポイントを作成した場合、ポイント距離ツールを使用して、原点の位置から特定の距離内にある建物Xのすべてのポイントを取得します。

それ以外の場合、タイプYの建物の周囲にバッファを作成し、タイプXのすべての建物を選択しても、ArcInfoがない場合は同じ結果が得られます。


0

バイナリ列(0,1)を追加して両方のレイヤーを組み合わせ、建物がXからかYからかを識別できます。

そこからGeoDaを使用して、ローカルの空間的自己相関(クラスタリング)を識別し、それが高低(1つのレイヤーが他のレイヤーの周りにクラスター化)であるか、低高(逆)または高高または低低(自己クラスタリング)。ユーザーガイドはこちら(.pdf)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.