同じ基礎母集団から2つの多変量分布がサンプリングされているかどうかをテストするにはどうすればよいですか?


13

たとえば、古いものと新しいものの2つの多変量データセットが与えられ、それらが同じプロセス(モデルを持たない)によって生成されたはずですが、おそらく収集/作成のラインに沿ってどこかにあるとしますデータ、何かがおかしくなりました。新しいデータを、たとえば古いデータの検証セットとして使用したり、古いデータに追加したりしたくないでしょう。

ウィルコクソンのランクサムなど、1次元の統計(変数ごと)を多数実行して、複数のテスト修正を試すことができますが、それが最適かどうかはわかりません(マルチテストの問題はもちろん、多変量データの複雑さをキャプチャするため)。1つの方法は、分類子を使用して、2つのデータセットを区別できるかどうかを確認することです(最適な最適な分類子が与えられた場合)。それはうまくいくように見えますが、それでもa)より良い方法があるperhpas b)なぜそれが違うのかをあなたに伝えるように本当に設計されていません

回答:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

データセットが同じサイズの場合、それを行う2つの可能な方法について説明します。基本的なアプローチは、観測された2つのマトリックス間の距離メトリックを計算することです。次に、その距離が重要であるかどうかを判断するには、置換テストを使用します。

データセットのサイズが同じではない場合、クロスマッチテストを使用できますが、あまり一般的ではないようです。クロスマッチテストの代わりに、データを同じサイズにアップまたはダウンサンプリングしてから、最初のペーパーで述べたアプローチのいずれかを使用できます。


不均一なサイズのデータ​​セットがある場合は、クロスマッチテストを使用してください。しかし、あなたが言及した論文に従って、彼らは等しい等しいデータセットを使用し、距離に基づいてペアリングするように見えます。これが使用されている証拠を見つけましたか?クロスマッチのリリースノートでも、この例では等しいデータセットを使用しています
-lukeg

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.