PCAは多重共線性の下で不安定ですか?


25

回帰状況では、推定された係数の不安定性のため、高度に相関する変数のセットがある場合、これは通常「悪い」ことを知っています(行列式がゼロに近づくにつれて、分散は無限に向かっていきます)。

私の質問は、この「悪」がPCAの状況で持続するかどうかです。共分散行列が特異になると、特定のPCの係数/負荷/重み/固有ベクトルは不安定/任意/非一意になりますか?私は、最初の主成分のみが保持され、他のすべてが「ノイズ」または「その他」または「重要でない」として却下される場合に特に興味があります。

ゼロまたはゼロに近い分散を持ついくつかの主成分だけが残っているため、それはないと思います。

これを見やすいのは、2変数の単純な極端な場合ではありません-それらが完全に相関していると仮定します。次に、最初のPCは正確な線形関係になり、2番目のPCは最初のPCに対して垂直になり、すべての観測値でPCの値はすべてゼロになります(分散0)。より一般的な場合は疑問に思う。


8
あなたの推論は良いです。実際には、2つ以上の固有値がほぼ一致するときに不安定になることが予想されます。その場合、固有値は決定されますが、固有ベクトルは決定されず、したがって負荷も同じではありません。数値的理由により、最大固有値と比較してサイズが非常に小さい固有値(および固有ベクトル)にも不安定性があります。
whuber

@whuberコメントはあなたの質問に答えますが、2つの完全に相関した変数の場合、PCAには問題がないはずです。共分散行列のランクは1であるため、非ゼロの固有値は1つだけなので、PCは1つだけです。元の変数は、このPCの倍数になります。唯一の問題は数値の安定性かもしれません。
mpiktas

実際、中程度に相関する変数があった場合は、実際に高度に相関した変数がある場合よりも悪化すると思います。数値ワイズあまりにも、あなたが順番にPCのを削除しNIPALSのようなアルゴリズム使用している場合
JMS

一つのこと-「高度に相関」と「共線性」は同じではありません。3つ以上の変数が含まれる場合、共線性は相関を意味しません。
ピーターフロム-モニカの復職

回答:


11

答えはさらに簡単な言葉で与えられるかもしれません:線形代数の観点から見た場合、重回帰はpcaよりも1ステップ多く、2番目のステップから不安定性が発生します:

pcaとmultの最初のステップ。回帰は、相関行列を2つのコレスキー因子に因数分解するものと見なすことができます。これらは、三角形であり、低相関または高相関には無関係です。(pcaは、その(三角形の)コレスキー因子のpc位置への回転として見ることができます(これは私が覚えている限り、ヤコビ回転と呼ばれます) L L TRLLt

マルチ。回帰手順は、そのコレスキー因子から従属変数の行と列を引いた逆行列を適用することです。これは、相関行列の最後の行にあります。 ここで不安定性が発生します:独立変数が高度に相関している場合、コレスキー因子対角線は 非常に小さな数値に縮退する可能性があり、それにより、ほぼゼロによる除算の問題が発生します。LL
L


これはおおよそ私が探していたものです。実際、あなたの答えを読んだことで、別の説明が思い浮かびます。共分散/相関行列の行列式に関係なく、回転は数値的に安定しています。また、PCAは座標軸の最適な回転を検出するようにフレーム化できるため、数値的にも安定しています。
確率論的

はい、たとえば、スタン・ムライクの「因子分析の基礎」では、ソースを正しく思い出せば、pc-rotation(Jacobi-method)の安定性が明示的に言及されました。因子分析の私自身の実装では、回転によるコレスキー後のすべてを実行します。PCA、Varimax、「主軸因数分解」(SPSSのPAF)も回転に基づいて再構築できます。マルチ回帰がコレスキー因子Lに基づいており、独立変数を含むLの部分がPC位置にある場合、多重共線性はさらによく制御できます。
ゴットフリードヘルムズ

3

PCAは多くの場合、目的を達成するための手段です。重回帰への入力、またはクラスター分析での使用のいずれかにつながります。あなたは、PCAの結果を使用して回帰を実行することについて話していると思います。

その場合、PCAを実行する目的は、多重共線性を取り除き、多重回帰への直交入力を取得することです。当然、これは主成分回帰と呼ばれます。ここで、元の入力がすべて直交である場合、PCAを実行すると、別の直交入力のセットが得られます。したがって; PCAを実行している場合、入力に多重共線性があると想定されます。

上記を考えると、PCAを実行して、いくつかの入力がある問題からいくつかの入力変数を取得することができます。保持する必要のある新しい直交変数の数を決定するために、スクリープロットがよく使用されます(Johnson&Wichern、2001、p。445)。あなたは観測の数が多い場合は、また、それと経験則を使用することができとしてまで使用し、それらの値を含むのみ固有値推定最大は1以上です(Johnson&Wichern、2001、p。451)。 ITH ^ λ Iλi^ithλi^p

参照資料

Johnson&Wichern(2001)。応用多変量統計分析(第6版)。プレンティスホール。


6
OPがPCR後かどうかはわかりません。また、PCAは、多変量データセットを要約するための良い方法です(モデリングフレームワークでの後続の使用のためにデータ削減を実行するために必ずしも必要ではありません)。質問は次のように思われます:最初のいくつかの固有値とPCを(元の変数の線形結合として)解釈するとき、共線性効果があったとしても正しいですか?あなたの回答は、OPの質問に直接対処していないようです。
CHL

2
一般的なPCAについての良い答えですが、 PCA が最終製品である場合どうでしょうか?つまり、目標は1台のPCを出力することです。@Chlは、質問の解釈で金銭的に正しいです
確率論

@chl質問に対するあなたの回答は何ですか:「共線性の影響があったとしても、最初のいくつかの固有値とPCを解釈するとき、私は正しいですか?」私は、次元削減を実行するときに高度に相関する変数を保持することがいつ良いアイデアであるかを理解しようとしているので、尋ねます。理論上、2つの変数が同じ潜在変数によって駆動されることがわかっている場合、潜在変数の効果を2回カウントしないように変数の1つを削除する必要があります。相関変数を保持するのに問題がないかを考えようとしています。
アマティア
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.