分散が小さいPCが「有用」であるPCAの例


24

通常、主成分分析(PCA)では、最初の数台のPCが使用され、データの変動の多くを説明していないため、低分散PCは削除されます。

ただし、バリエーションの少ないPCが有用な例(データのコンテキストでの使用、直感的な説明など)があり、破棄しないでください。


5
かなりの数。PCA、コンポーネントのランダム性を参照してくださいこれは重複している場合もありますが、タイトルは非常に明確であるため(検索することで検索が容易になる可能性が高いため)、タイトルが閉じられたとしても削除しないでください。
ニックスタウナー14年

回答:


18

ここからクールの抜粋ですJolliffeは(1982)私は非常によく似た質問に対する私の前の回答に含めなかったこと「PCA における低分散成分、彼らはただのノイズ本当にある?それをテストするための方法はありますか?」私は見つけますそれはかなり直感的です。

空港で重要な問題であるクラウドベースの高さを予測する必要があるとします。表面温度および表面露点など、さまざまな気候変数が測定されます。ここで、は表面空気が水蒸気で飽和する温度であり、差は表面湿度の尺度です。現在、は一般に正の相関があるため、気候変数の主成分分析には、と高度に相関する高分散成分と、と同様に相関する低分散成分が含まれます。T s T d T d T sT d T sT d T s + T d T sT dHTsTdTdTsTdTs,TdTs+TdTsTd。ただし、は湿度、つまり、つまり高分散成分ではなく低分散に関連しているため、低分散成分を拒否する戦略では予測が不十分になります。この例の説明は、測定されて分析に含まれる他の気候変数の未知の影響のため、必然的に曖昧になります。ただし、従属変数が低分散成分に関連する物理的にもっともらしいケースを示しており、文献からの3つの経験的な例を確認しています。T sT d HHTsTdH

さらに、クラウドベースの例は、1966〜73年の期間にカーディフ(ウェールズ)空港からのデータでテストされており、1つの追加の気候変数、海面温度も含まれています。結果は本質的に上記の予測通りでした。最後の主成分はおよそ であり、総変動のわずか%を占めています。ただし、主成分回帰では、最も重要な予測因子でした[エンファシスの追加]HTsTdH

第2段落の最後の文で言及された文献からの3つの例は、リンクされた質問への私の答えで言及した3つでした。


参照
Jolliffe、IT(1982)。回帰における主成分の使用に関する注意。応用統計、31(3)、300–303。より作成http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf


これは本当にクールです。は常によりも大きいことに注意してください。。だからこそ理解する上で第二のために私を倒してしまった。必ずしも「低分散」成分であったV A B = V A + V B 2 C o vA B T sT dVA+B=VA+VB+2CovABVAB=VA+VB2CovABTsTd
shadowtalker

+1、これは良い例です。興味深いことに、これは抑制の例でもあります。
GUNG -復活モニカ

17

Rがある場合crabs、MASSパッケージのデータに良い例があります。

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

分散の98%以上は最初の2台のPCによって「説明」されていますが、実際、これらの測定値を実際に収集して調査している場合、3番目のPCは非常に興味深いものです。しかし、PC1(カニのサイズに対応すると思われる)とPC2(カニの性に対応すると思われる)に圧倒されます。

ここに画像の説明を入力してください

ここに画像の説明を入力してください


2
+1、これは本当にきちんとしたデモンストレーションです。必要に応じて、追加できる2つの散布図マトリックスを作成しました。
GUNG -復活モニカ

1
@gung:散布図を追加してくれてありがとう!私は以前にこの答えを支持しましたが、プロットを見ずにそれを十分に評価しませんでした。Scatterplot PC2対PC3は本当に素晴らしいです。性別と種の両方をほぼ完全に分離します。また、この例は、すべての変数が強く正の相関がある場合に何が起こるかを示しているため、この例が気に入っています(つまり、PC1は多くの分散を説明し、基本的には平均です)。
アメーバは、モニカを復活させる

1
ありがとう、@ amoeba。私は彼らが判明した方法が本当に好きです。私はそれら(色、pch、lables、伝説)をいじるのに多くの時間を費やしました。私は実際、彼らは今やちょっと可愛いと思います。あなたはPC1について良い点を述べています。また、多くの関係では、(おそらく)一定の変動係数と性別および/または種による相互作用があることがわかります。小さな(赤ちゃん?)カニは、性別や種に関係なく同じ値を持つ傾向があります彼らは成長します(年齢?)彼らはより明確になります。等、見栄えの良いものがたくさんあります-あなたはそれらを見続けることができます。
GUNG -復活モニカ

8

私の経験から2つの例を示します(ケモメトリックス、光学/振動/ラマン分光法):

  • 私は最近、生データの総分散の99%を超える光が背景光の変化によるものである光学分光データを取得しました(スポットライトの測定ポイントでの強弱、蛍光灯のオン/オフの切り替え、雲の多かれ少なかれ太陽)。既知の影響因子の光学スペクトルによるバックグラウンド補正後(生データのPCAにより抽出され、これらの変動をカバーするために追加の測定が行われました)、PC 4および5に関心のある効果が現れました
    。これは、測定されたサンプルの他の影響によるものであり、PC 2は、測定中に機器の先端が熱くなることと相関しています。

  • 別の測定では、測定されたスペクトル範囲の色補正なしのレンズが使用されました。色収差は、スペクトルの歪みを引き起こします。前処理されたデータの合計分散の90%(主にPC 1でキャプチャされます)。
    このデータについては、正確に何が起こったかを理解するのにかなり時間がかかりましたが、より良い目的に切り替えることで、後の実験で問題を解決しました。

(これらの研究はまだ公開されていないため、詳細を表示できません)


3

基になるデータが何らかの方法でクラスター化またはグループ化されている共分散行列でPCAを実行する場合、分散が低いPCが最も役立つことに気付きました。グループの1つが他のグループよりも平均分散が大幅に低い場合、最小のPCがそのグループに支配されます。ただし、そのグループからの結果を破棄したくない理由があるかもしれません。

ファイナンスでは、株式のリターンには年間標準偏差が約15〜25%あります。債券利回りの変化は、歴史的にはるかに低い標準偏差です。株式のリターンと債券利回りの変化の共分散行列に対してPCAを実行すると、上位のPCはすべて株式の分散を反映し、最小のPCは債券の分散を反映します。絆を説明するPCを捨てると、問題が発生する可能性があります。たとえば、債券は、在庫とは非常に異なる分布特性を持っている可能性があります(より細いテール、異なる時変分散特性、異なる平均復帰、共和分など)。これらは、状況によってはモデル化するのに非常に重要かもしれません。

相関行列でPCAを実行すると、上部近くの結合を説明するPCがさらに表示される場合があります。


この答えは、株式、債券、利回り、およびリターンが何であるかを知らない場合、理解するのが非常に困難です。私はない、と私はあなたの最初の文は、2番目の1に関連しているかを確認することはできません...
アメーバは回復モニカ言う

1
私はいくつかの編集を行いました。
ジョン14

1

、この講演スライド)プレゼンターが高い変動と低い変動の機能を区別するPCAの使用を議論します。

彼らは実際に、異常検出のために低変動性の特徴を好む。なぜなら、低変動性の次元における大きな変化は異常な行動の強力な指標だからである。彼らが提供する動機付けの例は次のとおりです。

ユーザーが常にMacからログインすると仮定します。彼らの活動の「オペレーティングシステム」次元は、非常に低い変動です。しかし、「オペレーティングシステム」がWindowsである同じユーザーからのログインイベントを見た場合、それは非常に興味深いものであり、キャッチしたいことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.