PCAに関する質問:PCはいつ独立しますか?PCAがスケーリングに敏感なのはなぜですか?PCが直交するように制約されているのはなぜですか?


11

PCAのいくつかの説明を理解しようとしています(最初の2つはWikipediaからのものです)。

主成分が独立していることが保証されるのは、データセットが共同で正規分布している場合のみです。

主成分の独立性は非常に重要ですか?この説明をどのように理解できますか?

PCAは、元の変数の相対的なスケーリングに敏感です。

「スケーリング」とはどういう意味ですか?異なる次元の正規化?

変換は、最初の主成分が可能な最大の分散を持ち、後続の各成分が先行する成分に直交するという制約の下で最大の分散を持つように定義されます

この制約を説明できますか?


3
#2は、PCAが共分散行列の固有分解によって実行される場合にのみ適用されます。相関行列の固有分解によって実行される場合、PCAはスケーリングの影響を受けません。
Alexis 14

@Alexis投稿ありがとうございます。#2について、「スケーリング」の意味を説明していただけませんか?データの対応する次元の動的な変化?
kakanana 14

1
「スケーリング」にはいくつかの意味があります。(1)これは、、データ線形変換を意味します。ここで、および ; または(2)の個々の変数はすべて同じスケールで測定され、サイズの異なる分散を持っている。私のコメントは、これらの意味の両方に当てはまります。X * = A + B X - < A < 0 < B < XXX=a+bX<a<0<b<X
Alexis 14

回答:


19

Q1。主成分は、相互に直交する(相関しない)変数です。直交性と統計的独立性は同義語ではありません。主成分について特別なことは何もありません。多変量データ分析のどの変数にも同じことが言えます。データが多変量正規(各変数が一変量正規であると述べるのと同じはありません)であり、変数が無相関である場合、はい、それらは独立しています。主成分の独立性が重要かどうかは、それらをどのように使用するかによって異なります。多くの場合、それらの直交性で十分です。

Q2。はい、スケーリングとは、個々の変数の分散を縮小または拡大することを意味します。変数は、データが存在する空間の寸法です。PCAの結果(コンポーネント)は、データクラウドの形状、つまり「楕円体」の形状に影響されます。変数を中心に置くだけの場合は、分散をそのままにします。これは、「共分散に基づくPCA」と呼ばれます。変数をvariances = 1に標準化する場合、これは「相関に基づくPCA」と呼ばれることが多く、前​​者とはかなり異なる場合があります(スレッドを参照)。また、比較的めったにない人々が非集中データに対してPCAを実行します。生データまたは単に単位の大きさにスケーリングされます。このようPCAの結果は、(参照、あなたがデータを中央場所からさらに異なる絵を)。

Q3。「制約」は、PCAがどのように機能するかです(巨大なスレッドを参照)。データが3次元の雲(3変数、点)であると想像してください。原点はその重心(平均)に設定されます。PCAは、component1を原点を通る軸として描画します。これは、最大化される2乗投影(座標)の合計です。つまり、component1に沿った分散が最大化されます。component1を定義した後、それをディメンションとして削除できます。つまり、データポイントはそのコンポーネントに直交する平面に投影されます。2次元の雲が残ります。次に、上記の手順を適用して、最大軸を見つけます。p p 1nバリアンス-この残された2Dクラウドで。そして、それはcomponent2になります。データポイントをそれに直交するラインに投影することにより、描画されたコンポーネント2を平面から削除します。残りの1D雲を表すその線は、最後のコンポーネントであるコンポーネント3として定義されます。これらの3つの「ステップ」のそれぞれで、分析a)が現在の次元空間で最大分散の次元を見つけたことがわかります、b)データをその次元のない次元、つまり、前述の次元に直交する次元空間に削減しました。このようにして、各主成分は「最大分散」であり、すべての成分は相互に直交していることがわかります(参照)。pp1

[ PS「直交」とは次の2つのことを意味することに注意してください。(1)物理的に垂直な軸としての可変軸。(2)データによって無相関の変数。PCAと他のいくつかの多変量メソッドでは、これら2つは同じものです。しかし、他のいくつかの分析(たとえば、判別分析)では、相関のない抽出された潜在変数、それらの軸が元の空間で垂直であることを自動的に意味しません。]


+1(昔)。将来の読者もこの質問への回答を読みたいと思うかもしれません。なぜPCAの主成分(共分散行列の固有ベクトル)が相互に直交するのですか?-これはこれの複製としてマークされていますが、役立つ回答がいくつか含まれています。
amoeba

@ttnphns PSで「これら2つは同じものです」と書きました。私はこの言い回しがややわかりにくいことに気づきました。PCAを基底の変更と考える場合、新しい基底が直交であると言うことは、新しい機能(つまり基底の変更後)が無相関であると言うことと同じではありません(別の直交基底を見つけることができるかもしれません)新しい機能相互に関連するように)。PCAは、PCが無相関であり、主軸が直交していることの両方を保証することを理解していますが、なぜこれらが同じであるのですか?
Oren Milman

@ttnphnsも、この回答にリンクすると役立つでしょうか?それは...私は、彼らが同じであるいくつかの定義によると、確率変数の無相関対直交性に関して、いくつかの混乱をクリア助け、彼らは唯一の中心変数も同じですいくつかの定義によると
オレンミルマン

@ore​​nmn、直交性についてのコメントありがとうございます。ただし、脚注では、データベクトルではなく軸の直交性について述べていました。私が示したリンクに従ってください。
ttnphns 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.