多次元分布が同じかどうかをテストする

15

n次元の連続値ベクトルのサンプル母集団が2つ以上あるとしましょう。これらのサンプルが同じ分布からのものかどうかをテストするノンパラメトリックな方法はありますか？もしそうなら、これのためにRまたはPythonに関数がありますか？

r distributions nonparametric python

— mbc
ソース

2

Kolmogorov-Smirnov検定は、2つの分布が同じかどうかを検定するための典型的なノンパラメトリックツールです。私はそれをよく知りませんが、ウィキペディアはJustel、A.、Peña、D. and Zamar、R.（1997）多変量Kolmogorov-Smirnov適合度検定、Statistics＆Probability Letters、35（3）、 251-259。このテストの多変量拡張。

— マクロ

1

2次元でこれを対処するCVの質問があります：stats.stackexchange.com/questions/25946/...が。2次元でも、標準的な方法はありません。

— ヒラメ

8

コルモゴロフ-スミルノフ検定が多変量ではないことに気付いたとき、多変量2サンプルテストについて多くの研究を行ったところです。そこで、カイ検定、ホテリングのT ^ 2、アンダーソンダーリング、クラマーフォンミーゼス基準、シャピロウィルクなどを見ました。これらのテストのいくつかは、同じであると比較されるベクトルに依存しているため、注意が必要です。長さ。その他は、2つのサンプル分布を比較するためではなく、正規性の仮定を拒否するためにのみ使用されます。

主要なソリューションは、2つのサンプルの累積分布関数を、数千のレコードを含むサンプルの1回の実行で数分程度で非常に計算量が多い可能性があるすべての可能な順序と比較するようです。

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

Xiaoのドキュメントにあるように、FasanoおよびFranceschiniテストはPeacockテストの変形です。

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

FasanoとFranceschiniのテストは、特に計算量を減らすことを目的としていましたが、Rでの作業の実装は見つかりませんでした。

Peacock対FasanoおよびFranceschiniテストの計算面を調査したい方は、2次元Kolmogorov–Smirnovテストの計算効率の良いアルゴリズムをご覧ください。

— Lフィッシュマン
ソース

多変量の累積分布とは何ですか？

— アクサカル

2

@Aksakal

と

までの一般化

F (x, y) = P (X < x, Y < y)

$F(x, y) = P(X<x, Y<y)$

p

$p$ 変量汎化と多変量の経験的累積分布関数は同様に推定されます

。

F (x, y) = \sum_{i = 1}^{n} I (X_{i} < x, Y_{i} < y) / n

$\mathbb{F}(x,y) = \sum_{i=1}^n \mathcal{I}\left(X_i<x, Y_i<y\right) / n$

— AdamO

2

素敵で簡潔なAdamO。ピーコックテストは、ファザーノやフランチェスキーニが行っているように、剪定を行わないことでまったく馬鹿げているようです。誰かがRのためにいつかそれをコード化することを決定することを期待しましょう。カテゴリ変数などによってさらにレコードを分解し、実際に分解が異なる分布から引き出されているかどうかを確認したい場合、速度に特に役立ちます。

— Lフィッシュマン

1

Rパッケージnp（ノンパラメトリック）には、積分平方密度を使用して連続データとカテゴリデータの密度が等しいかどうかのテストがあります。Li、Maasoumi、およびRacine（2009）

セクション6の np条件付きPDF と同様。

— ran8
ソース

1

はい、2つの多変量サンプルが同じ結合分布からのものであるかどうかをテストするノンパラメトリックな方法があります。Lフィッシュマンが言及したものを除く詳細について言及します。あなたが求めている基本的な問題は「2つのサンプルの問題」と呼ぶことができ、現在、機械学習研究ジャーナルや統計統計学などのジャーナルでかなりの量の研究が行われています。この問題について少し知識があれば、次のように指示を出すことができます

多変量サンプルセットをテストする最近の方法の1つは、最大平均不一致（MMD）を使用することです。関連文献：Arthur Gretton 2012、Bharath 2010など。他の関連する方法は、これらの研究記事で見つけることができます。興味がある場合は、これらの記事を引用した記事を読んで、この問題の最新技術の全体像を把握してください。はい、これにはR実装があります。

さまざまなポイントセット（サンプルセット）を参照ポイントセットと比較して、それらが参照ポイントセットにどれだけ近いかを確認する場合は、f-divergenceを使用できます。

これの人気のある特別なケースの1つは、Kullback-Leibler Divergenceです。これは、多くの機械学習体制で使用されています。これも2つのnpの方法で実行できます。parzenウィンドウ（カーネル）アプローチとK-Nearest Neighbor PDF推定器を使用します。

アプローチする方法は他にもあるかもしれませんが、この答えはあなたの質問の包括的な扱いではありません;）

— クリシュナ
ソース