次のように実行される主成分分析の出力を理解しようとしています。
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
私は上記の出力から以下を結論する傾向があります:
分散の比率は、特定の主成分の分散に存在する総分散の大きさを示します。したがって、PC1の変動は、データの総変動の73%を説明しています。
表示される回転値は、一部の説明で言及されている「ローディング」と同じです。
PC1の回転を考えると、Sepal.Length、Petal.Length、およびPetal.Widthは直接関連しており、それらはすべてSepal.Width(PC1の回転で負の値を持つ)に反比例していると結論付けることができます。
植物(一部の化学的/物理的機能システムなど)には、これらのすべての変数(Sepal.Length、Petal.Length、およびPetal.Widthが一方向で、Sepal.Widthが反対方向)に影響を及ぼしている可能性がある要素がある可能性があります。
すべての回転を1つのグラフで表示したい場合は、各回転にその主成分の分散の比率を掛けることにより、全体の変化に対するそれらの相対的な寄与を示すことができます。たとえば、PC1の場合、0.52、-0.26、0.58、および0.56の回転にすべて0.73が掛けられます(summary(res)の出力に示されているPC1の比例分散)。
上記の結論について私は正しいですか?
質問5に関する編集:次のように、単純な棒グラフですべての回転を表示したいと思います。
PC2、PC3、およびPC4の変動への寄与は徐々に少ないため、そこで変数の負荷を調整(低減)することは理にかなっていますか?