主成分分析におけるバイプロットの解釈


30

この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。

バイプロット

したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?


回答:


22

PCAは、特定の相関行列の構造を分析する多くの方法の1つです。構造上、最初の主軸は、データが線(変数があると仮定して次元空間の方向を表す)に投影されたときに分散(固有値で反映)を最大化するもので、2番目の主軸はそれに直交し、残りの分散を最大化します。これは、最初の2つの軸を使用すると、平面に投影したときに元の変数空間(たとえば、dim行列のより良い近似が得られる理由です。p X n × pppバツn×p

バツあなたはあなたはp変数、またはその組み合わせ。あなたの場合、HSAURの図13.3は、Joyner-Kersee(Jy-K)が第1軸で高い(負の)スコアを持っていることを示しています。2番目の軸の解釈にも同じ推論が適用されます。私はこの図を非常に短い目で見ているので、詳細には立ち入らず、私の解釈は確かに表面的なものです。詳細については、HSAURの教科書をご覧ください。ここでは、変数と個体の両方が同じダイアグラムに表示されることに注意する価値があります(これはバイプロットと呼ばれますrバツ1バツ2=cos2バツ1バツ2

ただし、多変量解析に関する入門書を読んで、PCAベースの方法を深く理解することをお勧めします。例えば、BS Everittは、このトピック、上の優れた教科書を書いたアンRとS-プラス®多変量解析へのコンパニオン、あなたは確認することができ、コンパニオンのウェブサイトを説明のために。ade4FactoMineRなど、適用される多変量データ分析用のその他の優れたRパッケージがあります。


rバツ1バツ2=cosバツ1バツ2cos2バツ1バツ2

21

プロットは以下を示しています。

  • 最初の2つの主成分に関する各ケース(アスリート)のスコア
  • 最初の2つの主要なコンポーネントでの各変数(つまり、各スポーツイベント)の読み込み。

左および下の軸は、[正規化された]主成分スコアを示しています。上軸と右軸は荷重を示しています。

一般に、2つのコンポーネントが、ケースと変数の構造の意味のある視覚的表現を提供するのに十分な量の分散を説明すると想定しています。

スペース内で互いに近いイベントを確認できます。これが当てはまる場合、これは、あるイベントで得意なアスリートが他の近位イベントでも得意である可能性が高いことを示唆している可能性があります。または、プロットを使用して、どのイベントが遠いかを確認できます。たとえば、ジャベリンは少し外れ値であり、2番目の主成分を定義する主要なイベントのようです。おそらく、異なる種類のアスリートは、他のほとんどのイベントよりもジャベリンが得意です。

もちろん、実質的な解釈についてはもっと言えるでしょう。



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.