PCAの低分散成分、それらは本当に単なるノイズですか?それをテストする方法はありますか?


18

PCAのコンポーネントを保持するかどうかを決定しようとしています。固有値の大きさに基づいて、ここここなどで説明され、比較される膨大な数の基準があります

ただし、私のアプリケーションでは、small(est)固有値はlarge(st)固有値と比較して小さくなり、大きさに基づく基準はすべてsmall(est)固有値を拒否することを知っています。これは私が望むものではありません。私が興味を持っているのは、ある意味で、小さな固有値の実際の対応する要素を考慮する既知の方法がありますか?それは、すべての教科書で暗示されているように本当に「ちょうど」ノイズか、潜在的な「何か」がありますか興味が残った?それが本当にノイズである場合、固有値の大きさに関係なく、それを削除し、そうでなければそれを保持します。

見つけられないPCAのコンポーネントに対して、何らかの確立されたランダム性または分布テストがありますか?それとも、これがばかげたアイデアになる理由を誰かが知っていますか?

更新

2つのユースケースのコンポーネントのヒストグラム(緑)と通常の近似(青):かつては本当にノイズ、おそらくは「ジャスト」ノイズではない(そう、値は小さいが、おそらくランダムではない)。どちらの場合も最大の特異値は〜160であり、最小、つまりこの特異値は0.0xxです。どのカットオフ方法にも小さすぎます。

私が探しているのは、これを形式化する方法です...

おそらく本当に「ちょうど」ノイズ おそらくノイズではありませんが、興味深いビットが含まれている可能性があります


2
あなたが参照するテストの多くは、あなたが要求するプロパティを正確に持っています:それらは「ノイズ」と「シグナル」を区別しようとします。
whuber

2
最近、同様の質問に興味がありますが、各データポイントに対して複数の測定がある特定の状況に興味があります。各データポイントに複数のサンプルがある場合のPCAコンポーネントの数の選択を参照してください。おそらくあなたの場合にも当てはまりますか?
アメーバは2014

PCでの分布テストを使用して、ランダムなサウンドを非常に興味深いアイデアとして決定します(私はこれまで適用したことがありません)。同様のことがICAで行われ、最大の非ガウス成分を特に探します。PCAを実行し、「余りにもガウス」であるコンポーネントを破棄すると、ICAフレーバーがあり、実際に機能する可能性があります。
アメーバは2014

回答:


20

小さな主成分(PC)のランダム性をテストする1つの方法は、それをノイズではなく信号のように扱うことです。つまり、対象の別の変数を予測しようとします。これは基本的に主成分回帰(PCR)です。

R2MSE

  • PC 1、3、4、6、7、および8の合計9を使用した化学工学モデルSmith&Campbell、1980
  • 10のうちPC 8、2、10(重要度の高い順)を使用したモンスーンモデルKung&Sharif、1980
  • 6台中4台と5台のPCを使用した経済モデル(Hill、Fomby、&Johnson、1977)

上記の例のPCには、固有値のランクサイズに従って番号が付けられています。Jolliffe(1982)は、最後のコンポーネントが最も貢献するクラウドモデルについて説明しています。彼は結論づけます:

上記の例は、主成分回帰で最後のいくつかの主成分が重要になるために、あいまいなデータや奇妙なデータを見つける必要がないことを示しています。むしろ、そのような例は実際にはかなり一般的であると思われます。ヒルら(1977)分散の大きさだけに基づいた選択の考えを永遠に埋めておくべき主成分を選択するための戦略の徹底的かつ有用な議論をする。残念ながら、これは起こっていないようであり、その考えはおそらく20年前よりも広く普及しているでしょう。

SS

p1Y

バツ

この答えは@Scortchiにあります。@ Scortchiは、「Jolliffe(2010)が PCを選択する他の方法をレビューします」などの非常に役立つコメントで、PCRでのPC選択に関する私自身の誤解を修正しました。このリファレンスは、さらなるアイデアを探すのに適した場所です。

参照資料

-ガンスト、RF、およびメイソン、RL(1977)。回帰におけるバイアス推定:平均二乗誤差を使用した評価。Journal of the American Statistics Association、72(359)、616–628。
-Hadi、AS、およびLing、RF(1998年)。主成分回帰の使用に関するいくつかの注意事項。アメリカの統計学者、52(1)、15–19。http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdfから取得。
-ホーキンス、DM(1973)。主成分分析による代替回帰の調査について。応用統計、22(3)、275–286。
-ヒル、RC、フォンビー、TB、ジョンソン、SR(1977)。主成分回帰の成分選択基準。統計におけるコミュニケーション–理論と方法、6(4)、309–334。
-ホテリング、H。(1957)。新しい多変量統計手法と因子分析の関係。British Journal of Statistics Psychology、10(2)、69–79。
-ジャクソン、E。(1991)。主要コンポーネントのユーザーズガイド。ニューヨーク:ワイリー。
-ジョリフ、IT(1982)。回帰における主成分の使用に関する注意。応用統計、31(3)、300–303。より作成http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf
-IT、ジョリフ(2010)。主成分分析(第2版)。スプリンガー。
-Kung、EC、Sharif、TA(1980)。先行する上層大気条件を伴うインドの夏季モンスーンの開始の回帰予測 Journal of Applied Meteorology、19(4)、370–380。http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdfから取得。
-ロット、WF(1973)。最小二乗回帰の主成分制限の最適なセット。統計におけるコミュニケーション–理論と方法、2(5)、449–464。
-メイソン、RL、およびガンスト、RF(1985)。回帰における主成分の選択。Statistics&Probability Letters、3(6)、299〜301。
-マッシー、WF(1965)。探索的統計研究における主成分回帰。Journal of the American Statistical Association、60(309)、234–256。より作成http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf
-スミス、G。、およびキャンベル、F。(1980)。いくつかのリッジ回帰法の批判。Journal of the American Statistical Association、75(369)、74–81。https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdfから取得。


4
...そして、あなたの問題を解決するために必要な効果が、単なるノイズである他の効果よりも大きいという保証は一切ありません。手元の問題。分散の95%が何らかの物理的影響によるノイズであるデータを見てきました
...-cbeleitesはMonicaをサポートしてい

3
非常に素晴らしいレビューですが、応答との強い関係に基づいて回帰で保持するPCを選択するHadi&Lingのペースを調整することは(応答をしますが)、応答との強い関係に基づいて元の予測子を選択するのと同じくらい危険です。交差検証が不可欠であり、収縮が望ましい。個人的には、PCAを賢明に使用して、主題の知識と一緒に予測子のデータ削減を導くために、応答に気付かないようにしたいと思います。
Scortchi -復活モニカ

2
この回答に+1(かなり前)ですが、今このスレッドを確認した後、私はこの回答が元の質問にはほとんど答えていないと言わなければなりません:OPは判断するためにコンポーネントの分布テストを使用できるかどうかを尋ねていましたそれらのランダム性。OPに対する最後のコメントも参照してください。
アメーバは2014

2

@Nick Staunerの答えに加えて、サブスペースクラスタリングを扱っている場合、PCAはしばしば貧弱なソリューションです。

PCAを使用する場合、最も固有値が高い固有ベクトルが最も懸念されます。これは、データが最も「伸びる」方向を表します。データが小さなサブスペースで構成されている場合、PCAはそれらを全体的なデータの分散に大きく寄与しないため、それらを厳soleに無視します。

そのため、小さな固有ベクトルは常に純粋なノイズではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.