データセットからランダムに選択されたポイントで構成されるファイルのセットがあり、各ファイルは特定のクラスに属しています。これらのファイルの各行には、ポイントのn空間の座標が含まれています。これらの各ファイルのn空間での分布を比較したいと思います。ヒストグラムを比較するためのKSテストに触発されました。私が読んだことから、この方法は多変量データにうまく拡張できません。以前はPCAを使用していましたが、すべての分散が単一のノイズの多い次元に折りたたまれ、クラスタリング手法は役に立たなかった。
私の質問-適合度の指標として各n次元のヒストグラム全体のKS値の平均を使用すべきではない理由はありますか?これらの分布を比較するためのより良い方法はありますか?