主成分分析の出力からの結論


9

次のように実行される主成分分析の出力を理解しようとしています。

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

私は上記の出力から以下を結論する傾向があります:

  1. 分散の比率は、特定の主成分の分散に存在する総分散の大きさを示します。したがって、PC1の変動は、データの総変動の73%を説明しています。

  2. 表示される回転値は、一部の説明で言及されている「ローディング」と同じです。

  3. PC1の回転を考えると、Sepal.Length、Petal.Length、およびPetal.Widthは直接関連しており、それらはすべてSepal.Width(PC1の回転で負の値を持つ)に反比例していると結論付けることができます。

  4. 植物(一部の化学的/物理的機能システムなど)には、これらのすべての変数(Sepal.Length、Petal.Length、およびPetal.Widthが一方向で、Sepal.Widthが反対方向)に影響を及ぼしている可能性がある要素がある可能性があります。

  5. すべての回転を1つのグラフで表示したい場合は、各回転にその主成分の分散の比率を掛けることにより、全体の変化に対するそれらの相対的な寄与を示すことができます。たとえば、PC1の場合、0.52、-0.26、0.58、および0.56の回転にすべて0.73が掛けられます(summary(res)の出力に示されているPC1の比例分散)。

上記の結論について私は正しいですか?

質問5に関する編集:次のように、単純な棒グラフですべての回転を表示したいと思います。 ここに画像の説明を入力してください

PC2、PC3、およびPC4の変動への寄与は徐々に少ないため、そこで変数の負荷を調整(低減)することは理にかなっていますか?


Re(5):あなたが「ローディング」と呼ぶものは実際にはローディングではなく、共分散行列の固有ベクトル、別名主方向、主軸です。「ローディング」は、固有値の平方根、つまり、説明された分散の比率の平方根を乗じた固有ベクトルです。ローディングには多くの優れたプロパティがあり、解釈に役立ちます。たとえば、次のスレッドを参照してください。ローディングvs PCAの固有ベクトルどちらを使用するか?つまり、固有ベクトルをスケーリングすることは非常に理にかなっており、説明された分散の平方根を使用するだけです。
amoeba

@amoeba:PCA、回転、またはローディングのバイプロットで何がプロットされますか?
rnso 2015

ほとんどの場合、負荷がプロットされます。詳細については、ここ私の回答を参照しください。
amoeba 2015

回答:


9
  1. はい。これは正しい解釈です。
  2. はい、回転値はコンポーネントの負荷値を示します。これはprcomp ドキュメントで確認されていますが、アスペクトのこの部分に「回転」というラベルが付けられている理由はわかりません。これは、荷重が直交(可能性が高い)または斜め(可能性が低い)メソッドを使用して回転されたことを意味します。
  3. Sepal.Length、Petal.Length、およびPetal.Widthがすべて正に関連付けられている場合はそうであるように見えますが、PC1のSepal.Widthの小さな負の負荷にはそれほど多くの在庫を入れません。PC2の方がはるかに強く(ほぼ排他的に)読み込まれます。明確にするために、Sepal.Widthは依然として他の3つの変数と負の関係にある可能性がありますが、最初の主成分に強く関連しているようには見えません。
  4. この質問に基づいて、主成分分析(PCA)ではなく、共通因子(CF)分析を使用するほうが良いのではないかと思います。CFは、目的が意味のある理論上の次元を明らかにすることである場合に、より適切なデータ削減手法です。たとえば、仮説を立てるプラントファクターがSepal.Length、Petal.Length、およびPetal.Widthに影響を与える可能性があります。私はあなたが何らかの生物科学-おそらく植物学-からのものであることを感謝しますが、ファブリガーら、1999、ウィダマン、2007、その他によるPCA対CFの区別に関する心理学のいくつかの良い記述があります。2つの主な違いは、PCAはすべての分散が真のスコアの分散であると仮定し、誤差は仮定されないことです。一方、CFは、因子が抽出され、因子の負荷が推定される前に、誤差の分散から真のスコアの分散を分割します。最終的には似たようなソリューションが得られる可能性がありますが、人々は時々そうしますが、それらが発散すると、PCAが負荷値を過大評価し、コンポーネント間の相関を過小評価する傾向があります。CFアプローチの追加の特典は、最尤推定を使用して負荷値の有意性検定を実行できると同時に、選択したソリューション(1因子、2因子、3因子、または4因子)がデータ。
  5. それぞれのコンポーネントの分散の割合によってバーに重み付けせずに、因子負荷値をそのままプロットします。このようなアプローチで何を表示したいのか理解しましたが、読者が分析からのコンポーネントの読み込み値を誤解する可能性があると思います。ただし、各コンポーネントによって説明される分散の相対的な大きさを視覚的に示す方法が必要な場合は、グループバーの不透明度を操作することを検討してください(を使用している場合ggplot2、これはalpha審美的)、各コンポーネントによって説明される分散の比率に基づいて(つまり、より多くの単色=より多くの分散が説明されます)。ただし、私の経験では、あなたの図はPCAの結果を提示する典型的な方法ではありません.1つまたは2つのテーブル(負荷+分散の1つで説明され、別のコンポーネントの相関)ははるかに簡単だと思います。

参考文献

Fabrigar、LR、Wegener、DT、MacCallum、RC、およびStrahan、EJ(1999)。心理学的研究における探索的要因分析の使用を評価する。心理的方法4、272から299まで。

ウィダマン、KF(2007)。一般的な要素とコンポーネント:プリンシパルと原則、エラー、誤解。R.キュデック&RCマッカラム(編)、100での因子分析:歴史的発展と将来の方向(pp。177-203)。ニュージャージー州マーワー:ローレンス・エルバウム。


2
+1、ここに多くの良い点があります。Re(2):共分散行列の固有ベクトルは、ここでは「回転」と呼ばれます。これは、PCAが基本的に座標系の回転であり、新しい座標系が固有ベクトルと整列するためです。これは、因子分析における「因子の直交/斜め回転」とは関係ありません。再(5):私がここであなたが何を意味していたのかよくわかりません。また、OPがどのように固有ベクトルを「1つのグラフで」表示したいのかもわかりません。おそらくOPはバイプロットのようなものを念頭に置いています。そう、そうです、固有ベクトルはしばしば固有値によってスケーリングされますが、それらの平方根によってスケーリングされます。
amoeba

あなたのトピックのための素晴らしい花をテーマにしたプロットですが、@ rnso :)
jsakaluk 2015

1
  1. いいえ、データの分散全体ではありません。4つの主成分でデータを表現したい場合のデータの分散の合計。主成分を追加することで、常により多くの総分散を見つけることができます。しかし、これは急速に減衰します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.