2D正方形の点の分布の均一性を測定する


10

2Dの正方形があり、その中に一連のポイントがあります。たとえば、1000ポイントです。正方形内のポイントの分布が広がっているか(または多かれ少なかれ均一に分布しているか)、または正方形内のいくつかのスポットに集まる傾向があるかどうかを確認する方法が必要です。

これを決定するための数学的/統計的(プログラミングではない)方法が必要です。私はググって、適合度、コルモゴロフなどのようなものを見つけました、そしてこれを達成する他のアプローチがあるのか​​と思っています。クラスペーパーにはこれが必要です。

入力:2D正方形、および1000ポイント。出力:はい/いいえ(はい=均等に広がる、いいえ=一部のスポットに集まる)。


1
「均一に分散」されているものを正確に明確に説明していません。均等に並べられた2Dの均一な立方体などを意味しますか?たとえば、等間隔の点のチェーン?または点の輪?ある意味では、これらの数値も均一なスプレッドです。
ttnphns 2012年

3
@ttnphnsこのコンテキストでは、「ユニフォーム」には、確立された従来の意味があります。強度が一定のポアソン過程に対応します。完全に空間的にランダムな「CSR」としてよく知られています。
whuber

2
@ヴァンあなたは「空間点プロセス」を研究したいと考えています。良いキーワードには、「リプリーK関数」、「CSR」、「ポアソン」などがあります。アクセシブルなリファレンスは、地理情報分析の O'Sullivan&Unwin です。古典はRipley、空間統計です:ポイントプロセスに焦点を当てています。アプリケーションについては、CrimeStatをざっと見てください。に慣れている場合は、このタスクのためのツールRたくさんあります
whuber

回答:


5

@Johnのchi = square testの考え方は1つの方法だと思います。

2次元のパッチが必要ですが、一方向カイ2乗検定を使用してパッチをテストする必要があります。つまり、セルの期待値はなります。1000N

しかし、細胞の数が異なれば、結論も異なる可能性があります。

別の可能性は、ポイント間の平均距離を計算し、これをその平均のシミュレーション結果と比較することです。これにより、任意の数のセルの問題が回避されます。

編集(平均距離の詳細)

1000ポイントの場合、があります。10009992

次に、均一に分布する1000個のポイントのN(多数)セットを生成できます。これらのNセットのそれぞれには、ポイント間の平均距離もあります。

実際のポイントの結果をシミュレーションされたポイントと比較して、p値を取得するか、またはそれらがどこにあるかを確認します。


1サンプルのカイ2乗(「一致カイ2乗検定」)が合理的な方法の1つであることに同意します。しかし、「平均距離」の提案について詳しく説明できますか?よくわからなかった。
ttnphns 2012年

空間分析で使用される@ttnphnsは、最近隣テスト(別名Clark and Evansテスト)、またはRipley's K です。例については、RライブラリspatstatまたはCrimeStatのドキュメントを参照してください。シミュレーションに基づく別の可能性は「スキャン」テストですが、これらは平均距離に基づいていません。
アンディW

3

別の可能性は、カイ二乗検定です。正方形を同じサイズの重複しないパッチに分割し、パッチに落ちるポイントの数を均一性の仮説の下でそれらの期待される数と比較してテストします(パッチの期待値は、すべて同じサイズの場合のtotal_points / total_patchesです)。 、カイ二乗検定を適用します。1000ポイントの場合、9つのパッチで十分ですが、データがどのように見えるかに応じて、より細かい粒度を使用することもできます。


1
私はあなたが何かに夢中になっていると思いますが、各セルの実際の数を等しいセルの期待される数と比較する適合度カイ二乗の良さがあなたが望むものでしょう。偶発テストを使用しても、行が列に依存している場合にのみ、セル間に均一な分布があるかどうかはテストされません。
John

また、カイ2乗検定は、選択したセル全体で均一でない場合にのみ通知します。それらが均一であるかどうかはわかりません。
ジョン

はい、私は均一性の帰無仮説の下で彼らの期待された数に対する数を意味しました、それが明確でなければ私の謝罪。あなたはそれをテーブルとして視覚化するだけで、初心者のために何が起こっているのかを理解するのに役立ちます!そして、明らかに、抽象的な意味での均一性ではなく、選択したセルに対するテストに限定されます
Ben Allison

@John、通常、この「分散テスト」を行う場合、通常は両面テストを行います。パターンが偶然に予想よりも均一であるかどうかを本当に確認したい場合は、カイ二乗検定が分布の左裾にあるかどうかを確認できます(任意のカットオフで)。
アンディW

Andy、この両面適合度テストの詳細を示す答えを提供する必要があります。通常、両面テストは、nullの2つの異なる選択肢をテストするだけですが、nullを実証することはできません。あなたの提案は興味深いものです。
ジョン

1

コルモゴロフ・スミルノフ検定を使用しないのはなぜですか?これは、特にサンプルサイズが電力不足を補うのに十分な大きさであることを考えると、私がやろうとしていることです。

あるいは、シミュレーションを行うこともできます。厳密ではありませんが、データが均一に分散されているかどうかについていくつかの証拠を提供します。


@whuber KSの2次元拡張はよく知られています(こちらを参照)。この場合、これらの1000の描画(座標(x、y))が2次元の共同均一分布から描画できるかどうかを調査しています-少なくとも私はこのように「均等に広がった」と読みました。@ジョン私は不器用に自分を表現したかもしれません(数学も英語も私の第一言語ではありません)。私が意味したのは、KSなどのテストを使用して正確なp値を計算できるのに対し、p値(または同等のものと呼ぶもの)は、シミュレーションを実行するときに漸近的になる傾向があるということです。


シミュレーションが厳密でないのはなぜですか?
ジョン

1
KSテスト(連続確率変数のiid結果であると想定される実数のセットを対象としています)がこの空間データセットにどのように適用されるかを説明できますか?
whuber

@whuber回答を編集して、回答の回答を提供します。ベスト。
abaumann 2012年

@ジョン私は私が何を意味するのかを説明しようとしました。ベスト。
abaumann 2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.