バートレットのテストによって診断された球形度は、PCAが不適切であることを意味するのはなぜですか?


14

バートレットの検定は、サンプルが等分散の母集団からのものであるかどうかを判断することに関することを理解しています。

サンプルが等分散の母集団からのものである場合、検定の帰無仮説を棄却できないため、主成分分析は不適切です。

この状況(ホモスケダスティクスデータセットを持つ)の問題がどこにあるのかわかりません。すべてのデータの基礎となる分布が同じであるデータセットを持つことの問題は何ですか?この条件が存在する場合、私は大したことはありません。これによりPCAが不適切になるのはなぜですか?

私はオンラインのどこにも良い情報を見つけることができないようです。このテストがPCAに関連する理由を解釈した経験はありますか?

回答:


15

質問のタイトルへの応答。

多くの場合、事前のPCAまたは因子分析で行われるバートレットの球面度検定は、データが共分散がゼロの多変量正規分布に由来するかどうかをテストします。(テストの標準漸近バージョンは、多変量正規性からの逸脱に対してまったくロバストではないことに注意してください。非ガウスクラウドでのブートストラップを使用する場合があります。)または共分散行列が対角行列であること。1

多変量クラウドが完全に球形であると想像してください(つまり、共分散行列は単位行列に比例します)。その後、1)任意の次元が主成分を提供できるため、PCAソリューションは一意ではありません。2)すべてのコンポーネントは同じ分散(固有値)を持っているため、PCAはデータを削減することはできません。

多変量クラウドが変数の軸に厳密に沿った楕円を持つ楕円形である2番目のケースを想像してください(つまり、共分散行列は対角です。対角を除くすべての値はゼロです)。そうすると、PCA変換によって暗示される回転はゼロになります。主成分は変数そのものであり、順序が変更され、潜在的に符号反転されます。これは些細な結果です。データを削減するためにいくつかの弱いディメンションを破棄するためにPCAは必要ありませんでした。


1統計のいくつかのテスト(少なくとも3つ、私の知る限り)は、バートレットにちなんで命名されています。ここで、バートレットの球形度テストについて説明します。


13

バートレットのテストと呼ばれる2つのテストがあるようです。参照したもの(1937)は、サンプルが分散が等しい母集団からのものであるかどうかを決定します。別の例では、データセットの相関行列が単位行列であるかどうかをテストしているようです(1951)。元の変数は既に無相関であるため、元の変数を取得するだけなので、ID相関行列を使用してデータに対してPCAを実行しない方が理にかなっています。たとえば、比較


2
+1これは、他の答えよりも混乱を解決します。
HelloWorld
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.