6つの変数、、、、、主成分分析を実行しました。正しく理解すれば、回転していないPC1はこれらの変数の線形結合がデータの最大の分散を説明/説明し、PC2はこれらの変数の線形結合がデータの次に大きな分散を説明するなどを教えてくれます。
私はちょうど興味があります-この「後方」を行う方法はありますか?これらの変数の線形結合を選択するとしましょう。たとえば、場合、これが記述するデータの分散を計算できますか?
6つの変数、、、、、主成分分析を実行しました。正しく理解すれば、回転していないPC1はこれらの変数の線形結合がデータの最大の分散を説明/説明し、PC2はこれらの変数の線形結合がデータの次に大きな分散を説明するなどを教えてくれます。
私はちょうど興味があります-この「後方」を行う方法はありますか?これらの変数の線形結合を選択するとしましょう。たとえば、場合、これが記述するデータの分散を計算できますか?
回答:
すべての変数が中心に置かれているという前提から始めた場合(PCAの標準的な手法)、データの合計分散は単なる平方和になります。
これは、変数の共分散行列のトレースに等しく、共分散行列の固有値の合計に等しくなります。これは、PCAが「データの説明」の観点から言っているのと同じ量です。つまり、PCに共分散行列の対角要素の最大の割合を説明してもらいたいのです。これを次のような予測値のセットの目的関数にすると、次のようになります。
次に、最初の主成分は、すべてのランク1近似値中で最小化します。したがって、後の適切な数量はように思われ ます。サンプルを使用するには、この方程式をランク1の予測に変換する必要があります。まず、重みを正規化して平方和1にする必要があります。そのため、(平方和)を。次に、正規化された重みに従って各観測値を「スコアリング」します。(A、I、... 、F、I)P = 1 - S A+2B+5C(1、2、5、0、0、0)
次に、スコアに重みベクトルを掛けて、ランク1の予測を取得します。
次に、これらの推定値を計算プラグインします。これを行列ノルム表記に入れることもできます。これは、異なる一般化を示唆する場合があります。を変数の観測値の行列として設定した場合(あなたの場合は)、を予測の対応する行列として設定します。次のように説明される分散の割合を定義できます。P O N × q q = 6 E
ここで、はフロベニウス行列ノルムです。したがって、これを他の種類の行列ノルムに「一般化」することができ、平方変化の合計でない限り「分散」ではありませんが、「変動の説明」の差の尺度が得られます。
これらの変数の線形結合を選択するとしましょう。たとえば、場合、これが記述するデータの分散を計算できますか?
この質問は2つの異なる方法で理解でき、2つの異なる答えにつながります。
線形結合はベクトルに対応します。これは、例ではです。このベクトルは、元の変数の6D空間の軸を定義します。あなたが求めているのは、この軸への投影がどれだけ「説明」するかということです。答えは、この投影からの元のデータの「再構成」という概念を介して与えられ、再構成エラーを測定します(説明されていない分散率に関するウィキペディアを参照)。結局のところ、この再構築は2つの異なる方法で合理的に実行でき、2つの異なる答えが得られます。
ましょうであります中央のデータセット(行がサンプルに対応し、列が変数に対応します)、をその共分散行列、を単位ベクトルとします データセットの合計分散は、すべての分散の合計、つまり共分散行列のトレースです:。問題は、のどの割合が行うかです。 n d説明する?@todddelucaと@probabilityislogicによって与えられる2つの答えは両方とも次と同等です:投影を計算し、その分散を計算してで除算します:
これは、たとえば@probabilityislogicが再構成を考慮してからを計算することを提案しているため、すぐには明らかではないかもしれませんただし、代数が少ない場合、これは同等の式であることが示されます。
はい。次の例を考えてみましょう。は、共分散行列と持つデータセットです。は単なるベクトルです。
合計分散はです。への投影の分散(赤い点で表示)は等しくなります。したがって、上記のロジックによれば、説明された分散は等しくなります。ある意味では、赤い点(「再構成」)は対応する青い点から遠く離れているため、分散の多くは「失われています」。
一方、2つの変数は相関関係があるため、ほとんど同じです。そのうちの1つが合計分散ののみを記述すると言うのは奇妙です。なぜなら、それぞれには2番目の「ほぼすべての情報」が含まれているからです。次のように我々はそれを形式化することができます:投影与え可能な限り最高の復興見つける、と必ずしも同じ、そしてその後、再構成誤差を計算しに差し込み説明された分散の割合の式:ここでは次のように選択されます。
式全体が単純化されることを見つけるために回帰解を使用するのは簡単な代数の問題です上記の例では、これはに等しく、妥当と思われます。
がの固有ベクトルの1つである場合 、つまり固有値を持つ主軸の1つである場合(したがって )、を計算する両方のアプローチに注意してください。一致し、おなじみのPCA式
PS。が基底ベクトルの1つであるという特殊なケースへの派生式の適用については、私の回答を参照してください:単一の変数によって説明されるデータの分散。
再構成を最小化するを見つけるは回帰問題です(は単変量予測子、は多変量応答)。その解は
次に、式はピタゴラスの定理により、回帰のハット行列は正射影(ただし、直接表示するのも簡単です)。
ここでの方程式を差し込むと、分子について次のようになります。
分母はと等しくなり、上記の式が得られます。
ベクトルのデータセットの合計分散を、データセットのベクトルとデータセットの平均ベクトル間の二乗誤差(SSE)の合計とする ここで、はデータセットの平均ベクトル、はデータセットのi番目のベクトル、は2つのベクトルのドット積です。 。別の言い方をすれば、設定した場合、合計分散は各とその予測値間のSSE です。
今の予測せ、ベクトルの投影である、単位ベクトル上に。
次いで所与のためにある
を最小化するためにを選択した場合、が最初の主成分であると思います。
代わりにをベクトルの正規化バージョン場合、は予測子としてを使用して記述されたデータの分散です。