多変量データのコルモゴロフ

8

データセットからランダムに選択されたポイントで構成されるファイルのセットがあり、各ファイルは特定のクラスに属しています。これらのファイルの各行には、ポイントのn空間の座標が含まれています。これらの各ファイルのn空間での分布を比較したいと思います。ヒストグラムを比較するためのKSテストに触発されました。私が読んだことから、この方法は多変量データにうまく拡張できません。以前はPCAを使用していましたが、すべての分散が単一のノイズの多い次元に折りたたまれ、クラスタリング手法は役に立たなかった。

私の質問-適合度の指標として各n次元のヒストグラム全体のKS値の平均を使用すべきではない理由はありますか？これらの分布を比較するためのより良い方法はありますか？

— バブ
ソース

3

ROOTは高次元のヒストグラムでのコルモゴロフ検定をサポートしており、注記（2Dバージョンの場合）はあいまいさがあることを示唆しています-あいまいさによって処理されます：両方の方法で計算します。コードにこれ以上の詳細が含まれているかどうかはわかりませんが、コメントには論文などへの参照が含まれていることがあります。

への注記には、いくつかの興味深いコメントがありますTH1::KolmogorovTest。

— dmckee ---元モデレーターの子猫
ソース

3

$\overline x$ $C$ $V(x):=(x-\overline x)^TC^{-1}(x-\overline x)$

— アーノルド・ノイマイヤー
ソース

多変量データのコルモゴロフ–スミルノフ検定