回答:
ここからクールの抜粋ですJolliffeは(1982)私は非常によく似た質問に対する私の前の回答に含めなかったこと「PCA における低分散成分、彼らはただのノイズ本当にある?それをテストするための方法はありますか?」私は見つけますそれはかなり直感的です。
空港で重要な問題であるクラウドベースの高さを予測する必要があるとします。表面温度および表面露点など、さまざまな気候変数が測定されます。ここで、は表面空気が水蒸気で飽和する温度であり、差は表面湿度の尺度です。現在、は一般に正の相関があるため、気候変数の主成分分析には、と高度に相関する高分散成分と、と同様に相関する低分散成分が含まれます。T s T d T d T s − T d T s、T d T s + T d T s − T d。ただし、は湿度、つまり、つまり高分散成分ではなく低分散に関連しているため、低分散成分を拒否する戦略では予測が不十分になります。この例の説明は、測定されて分析に含まれる他の気候変数の未知の影響のため、必然的に曖昧になります。ただし、従属変数が低分散成分に関連する物理的にもっともらしいケースを示しており、文献からの3つの経験的な例を確認しています。T s − T d H
さらに、クラウドベースの例は、1966〜73年の期間にカーディフ(ウェールズ)空港からのデータでテストされており、1つの追加の気候変数、海面温度も含まれています。結果は本質的に上記の予測通りでした。最後の主成分はおよそ であり、総変動のわずか%を占めています。ただし、主成分回帰では、最も重要な予測因子でした。 [エンファシスの追加]H
第2段落の最後の文で言及された文献からの3つの例は、リンクされた質問への私の答えで言及した3つでした。
参照
Jolliffe、IT(1982)。回帰における主成分の使用に関する注意。応用統計、31(3)、300–303。より作成http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf。
Rがある場合crabs
、MASSパッケージのデータに良い例があります。
> library(MASS)
> data(crabs)
> head(crabs)
sp sex index FL RW CL CW BD
1 B M 1 8.1 6.7 16.1 19.0 7.0
2 B M 2 8.8 7.7 18.1 20.8 7.4
3 B M 3 9.2 7.8 19.0 22.4 7.7
4 B M 4 9.6 7.9 20.1 23.1 8.2
5 B M 5 9.8 8.0 20.3 23.0 8.2
6 B M 6 10.8 9.0 23.0 26.5 9.8
> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000
分散の98%以上は最初の2台のPCによって「説明」されていますが、実際、これらの測定値を実際に収集して調査している場合、3番目のPCは非常に興味深いものです。しかし、PC1(カニのサイズに対応すると思われる)とPC2(カニの性に対応すると思われる)に圧倒されます。
私の経験から2つの例を示します(ケモメトリックス、光学/振動/ラマン分光法):
私は最近、生データの総分散の99%を超える光が背景光の変化によるものである光学分光データを取得しました(スポットライトの測定ポイントでの強弱、蛍光灯のオン/オフの切り替え、雲の多かれ少なかれ太陽)。既知の影響因子の光学スペクトルによるバックグラウンド補正後(生データのPCAにより抽出され、これらの変動をカバーするために追加の測定が行われました)、PC 4および5に関心のある効果が現れました
。これは、測定されたサンプルの他の影響によるものであり、PC 2は、測定中に機器の先端が熱くなることと相関しています。
別の測定では、測定されたスペクトル範囲の色補正なしのレンズが使用されました。色収差は、スペクトルの歪みを引き起こします。前処理されたデータの合計分散の90%(主にPC 1でキャプチャされます)。
このデータについては、正確に何が起こったかを理解するのにかなり時間がかかりましたが、より良い目的に切り替えることで、後の実験で問題を解決しました。
(これらの研究はまだ公開されていないため、詳細を表示できません)
基になるデータが何らかの方法でクラスター化またはグループ化されている共分散行列でPCAを実行する場合、分散が低いPCが最も役立つことに気付きました。グループの1つが他のグループよりも平均分散が大幅に低い場合、最小のPCがそのグループに支配されます。ただし、そのグループからの結果を破棄したくない理由があるかもしれません。
ファイナンスでは、株式のリターンには年間標準偏差が約15〜25%あります。債券利回りの変化は、歴史的にはるかに低い標準偏差です。株式のリターンと債券利回りの変化の共分散行列に対してPCAを実行すると、上位のPCはすべて株式の分散を反映し、最小のPCは債券の分散を反映します。絆を説明するPCを捨てると、問題が発生する可能性があります。たとえば、債券は、在庫とは非常に異なる分布特性を持っている可能性があります(より細いテール、異なる時変分散特性、異なる平均復帰、共和分など)。これらは、状況によってはモデル化するのに非常に重要かもしれません。
相関行列でPCAを実行すると、上部近くの結合を説明するPCがさらに表示される場合があります。