複数の次元で均一性をテストする方法は?


13

均一性のテストは一般的なものですが、多次元の点群に対してそれを行う方法は何でしょうか。


興味深い質問。独立したエントリーを検討していますか?

1
@Procrastinator私は今この点について考えています。独立性なしに均一性を持つことが可能かどうかを把握しようとしています。どんなヒントでも大歓迎です。
gui11aume

4
はい、独立せずに均一にすることができます。たとえば、をカバーする -cubesの均一なグリッドを生成し、立方体上の均一な分布に従ってその原点をオフセットすることにより、ユニット -cube からサンプリングします。単位立方体内にある -cubesの中心を保持します。必要に応じて、それらからランダムにサブサンプリングします。すべてのポイントが選択される確率は等しく、分布は均一です。結果も均一に見えますが、2つのポイントがお互いの距離内にないため、ポイントは明らかに独立ではありません。ϵ R n ϵ ϵ ϵnϵRnϵϵϵ
whuber

回答:


14

標準的な方法では、RipleyのK関数またはL関数などのそれから派生したものを使用します。これは、最大距離間隔()の関数として、ポイントの近傍の平均数をまとめたプロットです。均一な分布のためのNの寸法、その平均値は次のように振る舞うべきρ N:それは常に小さいためであろうρ。クラスタリング、他の形式の空間的非独立性、およびエッジ効果により、このような動作から逸脱します(ポイントによってサンプリングされる領域を指定することが重要です)。この合併症のため-nρnρnρn増加-ほとんどのアプリケーションで、シミュレーションを介してヌルK関数の信頼帯が設定され、観測されたK関数が偏位を検出するためにオーバープロットされます。いくつかの思考と経験により、エクスカーションは、特定の距離ではなく、クラスター化する傾向の観点から解釈することができます。

図1

Dixon(2001)のK関数とその関連L関数の例(同上)。ようにL関数が構成されている良い視覚資料:均一な分布のためには、ゼロの水平ラインです。破線は、シミュレーションを介して計算されたこの特定の調査エリアの信頼帯です。灰色の実線のトレースは、データのL関数です。距離0〜20 mでの正の偏位は、これらの距離でのクラスタリングを示しています。L(ρ)ρ

私は、関連する質問に対する回答で働いていた例を掲載/stats//a/7984プロットに埋め込まれた二次元多様体上の均一な分布のためにK-機能に由来する、ですシミュレーションにより推定。R3

Rspatstat機能kestk3estのためにK-関数を計算し及びN = 3それぞれ。3次元以上では、おそらく自分で作成しますが、アルゴリズムはまったく同じです。によって計算された(中程度の効率で)距離行列から計算を行うことができます。n=2n=3stats::dist


ブラウン橋と、リンク先の回答に表示されるプロットとの関係を理解し​​たことがありますか?
gui11aume

13

質問は思ったより難しいことがわかりました。それでも、私は宿題をし、見回した後、いくつかの次元で均一性をテストするリプリーの機能に加えて2つの方法を見つけました。

unf両方のテストを実装するRパッケージを作成しました。あなたはからダウンロードすることができますgithubのhttps://github.com/gui11aume/unf。その大部分はCにありますので、マシンでをコンパイルする必要がありますR CMD INSTALL unf。実装のベースとなっている記事は、パッケージ内のPDF形式です。

最初の方法は、@ Procrastinator(多変量の均一性とそのアプリケーションのテスト、Liang et al。、2000)が言及した参考文献からのもので、ユニットハイパーキューブのみで均一性をテストできます。この考え方は、中央極限定理により漸近的にガウス分布する不一致統計を設計することです。これは、計算することができ試験の基礎である統計値を、。χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

2番目のアプローチはあまり慣習的ではなく、最小全域木を使用します。最初の作業は、2つの多変量サンプルが同じ分布に由来するかどうかをテストするために、1979年にFriedman&Rafskyによって実行されました(パッケージ内の参照)。下の画像はその原理を示しています。

均一

2つの2変量サンプルのポイントは、元のサンプルに応じて赤または青でプロットされます(左パネル)。2次元のプールされたサンプルの最小スパニングツリーが計算されます(中央のパネル)。これは、エッジの長さの合計が最小のツリーです。ツリーは、すべてのポイントが同じラベルを持つサブツリーに分解されます(右パネル)。

次の図では、青いドットが集約されている場合を示しています。これにより、右側のパネルに示されているように、プロセスの終了時にツリーの数が減少します。フリードマンとラフスキーは、プロセスで取得する木の数の漸近分布を計算しました。これにより、テストを実行できます。

不均一

多変量サンプルの均一性に関する一般的なテストを作成するこのアイデアは、1984年にSmithとJainによって開発され、CのBen Pfaffによって実装されました(パッケージ内の参照)。2番目のサンプルは、最初のサンプルのおおよその凸包で均一に生成され、フリードマンとラフスキーのテストは2つのサンプルプールで実行されます。

この方法の利点は、ハイパーキューブだけでなく、すべての凸多変量形状の均一性をテストすることです。強い欠点は、2番目のサンプルがランダムに生成されるため、テストにランダムなコンポーネントがあることです。もちろん、テストを繰り返して結果を平均して再現可能な答えを得ることができますが、これは便利ではありません。

前回のRセッションを続けて、これがどのように進むかを示します。

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

githubからコードを自由にコピー/フォークしてください。


1
素晴らしい概要、ありがとう!将来の世代のために、私はこの記事が有用な「実用的な」要約であることも発見しました(著者とは一切関係ありません)。
ミンナー

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@whuberセルの最小数が何である必要があるかを決めたとは思わず、ここでいくつかの次元が必ずしも大きいというわけではありません。我々はわずか3または4を扱っているのだろう
マイケルR. Chernick

5
あなたの答えは、その範囲と潜在的な適用可能性を線引きすると、すべての読者にとってより有用になります。(優れた統計コンサルティングの精神に
基づく

「次に、均一性のために\ Chi ^ 2テストを実行します。」-展開してください。ウィキペディアen.wikipedia.org/wiki/Pearson%27s_chi-squared_testには、適合度、均質性、独立性のChi2テストのみがあります。
ヤロスラフニキテンコ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.