2つの空間ポイントパターンを比較しますか?


41

同じ地理的領域内に2つのポイントパターン分布がある場合、それら2つの分布を視覚的および定量的に比較するにはどうすればよいですか?

また、小さな領域内に多くのポイントがあるため、ピンマップを表示するだけでは情報が得られないと想定します。

回答:


32

いつものように、それはあなたの目的とデータの性質に依存します。以下のために完全にマッピングされたデータ、強力なツールリプリーズL関数の近親であるリプリーズK関数。多くのソフトウェアがこれを計算できます。ArcGISは今のところそれを行うかもしれません。私はチェックしていません。 CrimeStatはそれを行います。GeoDaとR同様です。関連付けられたマップを使用した使用例は、

シントン、DSおよびW.フーバー。米国におけるポルカとその民族遺産のマッピング。Journal of Geography Vol。106:41-47。2007

以下は、Ripley's Kの「L関数」バージョンのCrimeStatスクリーンショットです。

リプリーのK関数のスクリーンショット

青い曲線は、ゼロを囲む赤と緑のバンドの間に位置しないため、非常に非ランダムな点の分布を記録します。これは、ランダム分布のL関数の青のトレースが存在する場所です。

サンプリングされたデータについては、サンプリングの性質に大きく依存します。このための優れたリソースは、数学と統計のバックグラウンドが限られている(ただし完全に欠席しているわけではありません)人がアクセスできる、サンプリングに関するSteven Thompsonの教科書です。

一般的に、ほとんどの統計的比較をグラフで示すことができ、すべてのグラフ比較は統計的対応に対応するか、または示唆するものです。したがって、統計文献から得られるアイデアは、2つのデータセットをマップする、またはグラフィカルに比較するための有用な方法を提案する可能性があります。


Dixonの論文をありがとう、それは素晴らしいリソースのようです。多変量パターンの空間的相互作用とランダムなラベル付けの違いに出会ったことはありませんでした。読み上げる必要があります。
アンディW

+1良いリソース。「魚の90%が湖の10%にいる」という古い釣りの真理は、サンプリング方法に本当に依存していますか?
カーククイケンドール

@Kirk私たちの多くにとって、魚の0%は実際に到達できる湖の10%にいます!
whuber

14

注:次はwhuberのコメントに従って編集されました

モンテカルロアプローチを採用することもできます。以下に簡単な例を示します。犯罪イベントAの分布が統計的にBの分布と似ているかどうかを判断したい場合、AイベントとBイベント間の統計を、ランダムに再割り当てされた「マーカー」のそのような測定の経験的分布と比較できます。

たとえば、A(白)とB(青)の分布を考えると、

ここに画像の説明を入力してください

ラベルAとBを結合データセットのすべてのポイントにランダムに再割り当てします。これは、単一のシミュレーションの例です。

ここに画像の説明を入力してください

これを何度も(たとえば999回)繰り返し、シミュレーションごとに、ランダムにラベル付けされたポイントを使用して統計(この例では平均最近傍統計)を計算します。続くコードのスニペットはRにありますspatstatライブラリの使用が必要です)。

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

その後、結果をグラフィカルに比較できます(赤い縦線は元の統計です)。

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

ここに画像の説明を入力してください

または数値的に。

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

平均最近傍統計は、問題に最適な統計的尺度ではない場合があることに注意してください。K関数などの統計は、より明らかになる可能性があります(whuberの答えを参照)。

上記は、Modelbuilderを使用してArcGIS内に簡単に実装できます。ループでは、各ポイントに属性値をランダムに再割り当てしてから、空間統計を計算します。結果を表に集計できるはずです。


2
カーネル密度アプローチの代わりに、置換テストを検討することをお勧めします。マニー。帰無仮説は、青と白のラベルがポイントに依存しないというものです。これをテストするには、近隣に適した統計値(青と白のドット間の平均最短距離、道路沿いの移動など)を採用します。色をすべてのドットにランダムに再割り当てし、同じ量の青と白を維持し、統計を再計算します。何度も繰り返して、統計のヌル分布を推定します。p値を取得するには、この分布の統計の実際の値を参照してください。
whuber

ありがとうwhuber。これをマークされたポイントの問題と見なすことは決してありませんでした。このアプローチを反映するように回答を更新しました。ただし、元のアプローチ(つまり、カーネル密度グリッドを使用してランダムポイントを生成する)が異なる結果をもたらした理由は明らかではありません。実際、それ(私の元のソリューション)は、AとBの両方が同様のプロセスから来たという事実を忠実に反映していませんでした。これは、カーネル密度アプローチが、ポイントデータによって提供される詳細を利用していないためですか?
マニーG

1
カーネル密度には、それに対するhalf意性の小さな要素があります(ハーフ幅の選択に関連)。これは違いを生むことができます。また、実際に行われていることから多少削除されています。ポイントを生成する基本的なプロセスがあります。そのプロセスの1つの実現が表示されます。あなたはそれの KDEを作ります; 次に、そのKDEから新しい実現を引き出します。実際には、観察する単一の構成に非常によく似た新しい構成を再現しています。置換アプローチでは、両方の分布が同じであるという帰無仮説により、マーキングの置換が正当化されます。これは直接的で強力です。
whuber

1
ご意見をお寄せいただきありがとうございます。時間があれば、より詳しいコメントをお伝えします。このRコードに注意して(答えの中でRコードであることに言及しましたか?)、spatstatパッケージ内の関数を利用するとよいでしょう。
アンディW

2
+1、このような置換テストの利用に関する素晴らしい点の1つは、1)ジオコーダーの特異性(ほとんどの状況で犯罪データのアドレスまたはアドレス範囲)に制約されている場合、完全な空間的ランダム性と比較してポイントパターンを評価することもできないことですかなりの感覚。2)このような置換テストは、エッジ効果の問題を回避します。もちろん、これらは過剰に一般化されていますが、このようなフレームワークは、多くの異なるタイプのポイントパターン統計の評価に一般化できると思います。
アンディW

4

CrimeStatをチェックしてみてください。

ウェブサイトによると:

CrimeStatは、Ned Levine&Associatesによって開発された犯罪事件の場所の分析のための空間統計プログラムであり、国立司法研究所からの助成金によって助成されました(助成金1997-IJ-CX-0040、1999-IJ-CX-0044、 2002-IJ-CX-0007、および2005-IJ-CX-K037)。このプログラムはWindowsベースであり、ほとんどのデスクトップGISプログラムと連動します。その目的は、法執行機関および刑事司法研究者が犯罪マッピングの取り組みを支援するための補足的な統計ツールを提供することです。CrimeStatは、刑事司法およびその他の研究者だけでなく、世界中の多くの警察署で使用されています。最新バージョンは3.3(CrimeStat III)です。


2

シンプルで高速なアプローチは、ヒートマップとこれら2つのヒートマップの差分マップを作成することです。関連:効果的なヒートマップを作成する方法は?


3
残念ながら、2つの補間または平滑化されたマップを区別すると、データよりも補間または平滑化の方法について多くの情報が得られる傾向があります:-(。ただ補間1のデータセットの。あなたはそれによって2つの補間マップを比較の半分のエラーをなくす、他の補間値に1セットの実際のデータを比較することができます。補間は、データと平滑の多くの種類のために有効ではないことを注記には不適切です他の種類のデータ
whuber

この方法は多くの種類の入力データには適さないことに同意します。点密度パターンを分析するときに、良い第一印象を与えることができると思います。
暗闇

補間が専門家によって実行され、慎重に解釈される場合、あなたが正しいことは間違いありません。
whuber

2

空間的自己相関に関する文献をレビューしたと仮定します。ArcGISには、ツールボックススクリプトを使用してこれを行うためのさまざまなポイントアンドクリックツールがあります:[ 空間統計ツール]-> [パターンの分析]

後方に作業することができます-ツールを見つけ、実装されたアルゴリズムを確認して、シナリオに適しているかどうかを確認します。土壌鉱物の発生における空間的関係を調査しながら、私はいつかモランの指数を使用しました。


2

多くの統計ソフトウェアで二変量相関分析を実行して、2つの変数と有意水準の間の統計的相関のレベルを決定できます。次に、クロロプレトスキームを使用して1つの変数をマッピングし、目盛り付きシンボルを使用して他の変数をマッピングすることにより、統計結果をバックアップできます。オーバーレイしたら、どの領域が高/高、高/低、低/低の空間関係を表示するかを決定できます。このプレゼンテーションにはいくつかの良い例があります。

独自の地理視覚化ソフトウェアを試すこともできます。このタイプの視覚化にはCommonGISが本当に好きです。近所(あなたの例)を選択すると、すべての有用な統計とプロットがすぐに利用できます。多変数マップの分析が非常に楽になります。


2
これらは良いアイデアですが、属性が共通の機能セットに対応しているため、参照する例が成功していることに気付きました。現在の質問では、フィーチャにはさまざまな場所があり、それらの場所はランダム変数です(たとえば、固定管理単位ではありません)。これらは重要な合併症です。ある場所の値を他の場所の値に関連付けるための意味のある手順を見つける必要があり、場所自体のランダムな特性に対処する必要があるからです。
whuber

その説明をありがとう!I OPを誤読み取り、それは(DA / CTなどと同様に)位置/地理的範囲を共用2つの独立変数のためだったと仮定
マイケルMarkieta

1

これには、クアドラト分析が最適です。これは、異なるポイントデータレイヤーの空間パターンを強調して比較できるGISアプローチです。

複数のポイントデータレイヤー間の空間的関係を定量化するクアドラト分析の概要は、 http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdfにあります


1
(1)リンクは404です(これが、すべてのリンクの要約を含めるように回答を求める理由です)。(2)Quadrat分析は2つの点分布をどの程度正確に比較しますか?
whuber

(1)リンクが動作する可能性があります。(2)Quadrat分析は、指定されたエリアを適切なサイズの同じサイズのユニットに分割します。次に、確率分析を使用して、各周波数内の期待値に対する各四角形内のポイントの実際の周波数を決定します。ArcMapの空間分析拡張機能のテーブルツールとしてポイント密度コマンドとゾーン統計を使用すると、回帰分析のためにこれらのポイントフィーチャクラスを要約することに加えて、高密度ポイント位置の近くにあるエリアを強調表示できます。

点分布の単変量解析の手順を説明しました。2つのプロセスの共起の程度を比較するために(四角形の相関を評価することにより)適応させることもできますが、2つの大きな制限があります。第一に、距離の関数としてプロセス間の関係を調べません。第二に、ポイントを四角形にビニングすることにより、電力が失われます。電力が失われるということは、重要なパターンを特定できなかったり、調査目的を達成するためにより多くのデータを収集する必要があることを意味します。
whuber

この「手順」を使用して、点分布の多変量解析を行いました。電力の損失を意味しますが、独自の集約レベルで2つのポイントパターン分布を視覚的および定量的に比較する方法も提供します(ここでの元の質問の解決策)。

私たちのサイトであなたが読んでいるものが、将来あなたがデータと限られた研究リソースを最大限に活用する能力を広げる代替のアプローチを検討するようにあなたを奮い立たせることを願っています。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.