Q1。主成分は、相互に直交する(相関しない)変数です。直交性と統計的独立性は同義語ではありません。主成分について特別なことは何もありません。多変量データ分析のどの変数にも同じことが言えます。データが多変量正規(各変数が一変量正規であると述べるのと同じではありません)であり、変数が無相関である場合、はい、それらは独立しています。主成分の独立性が重要かどうかは、それらをどのように使用するかによって異なります。多くの場合、それらの直交性で十分です。
Q2。はい、スケーリングとは、個々の変数の分散を縮小または拡大することを意味します。変数は、データが存在する空間の寸法です。PCAの結果(コンポーネント)は、データクラウドの形状、つまり「楕円体」の形状に影響されます。変数を中心に置くだけの場合は、分散をそのままにします。これは、「共分散に基づくPCA」と呼ばれます。変数をvariances = 1に標準化する場合、これは「相関に基づくPCA」と呼ばれることが多く、前者とはかなり異なる場合があります(スレッドを参照)。また、比較的めったにない人々が非集中データに対してPCAを実行します。生データまたは単に単位の大きさにスケーリングされます。このようPCAの結果は、(参照、あなたがデータを中央場所からさらに異なる絵を)。
Q3。「制約」は、PCAがどのように機能するかです(巨大なスレッドを参照)。データが3次元の雲(3変数、点)であると想像してください。原点はその重心(平均)に設定されます。PCAは、component1を原点を通る軸として描画します。これは、最大化される2乗投影(座標)の合計です。つまり、component1に沿った分散が最大化されます。component1を定義した後、それをディメンションとして削除できます。つまり、データポイントはそのコンポーネントに直交する平面に投影されます。2次元の雲が残ります。次に、上記の手順を適用して、最大軸を見つけます。p p − 1nバリアンス-この残された2Dクラウドで。そして、それはcomponent2になります。データポイントをそれに直交するラインに投影することにより、描画されたコンポーネント2を平面から削除します。残りの1D雲を表すその線は、最後のコンポーネントであるコンポーネント3として定義されます。これらの3つの「ステップ」のそれぞれで、分析a)が現在の次元空間で最大分散の次元を見つけたことがわかります、b)データをその次元のない次元、つまり、前述の次元に直交する次元空間に削減しました。このようにして、各主成分は「最大分散」であり、すべての成分は相互に直交していることがわかります(も参照)。pp−1
[ PS「直交」とは次の2つのことを意味することに注意してください。(1)物理的に垂直な軸としての可変軸。(2)データによって無相関の変数。PCAと他のいくつかの多変量メソッドでは、これら2つは同じものです。しかし、他のいくつかの分析(たとえば、判別分析)では、相関のない抽出された潜在変数は、それらの軸が元の空間で垂直であることを自動的に意味しません。]