正準相関分析の機能を視覚化する方法(主成分分析の機能と比較して)


70

正準相関分析(CCA)は、主成分分析(PCA)に関連する手法です。散布図を使用してPCAまたは線形回帰を教えるのは簡単ですが(Googleの画像検索に関する数千の例を参照)、CCAの同様の直感的な2次元の例を見たことはありません。線形CCAの機能を視覚的に説明する方法


1
CCAはどのようにPCAを一般化しますか?私はそれが一般化だとは言いません。PCAは1つの変数セットで機能し、CCAは2つ(またはそれ以上の最新の実装)で機能しますが、これは大きな違いです。
ttnphns

2
厳密に言えば、関連性の高い単語を選択することをお勧めします。とにかく、PCAは共分散行列で、CCAは相互共分散行列で動作します。データセットが1つしかない場合、それ自体に対する相互共分散を計算すると、より単純なケース(PCA)に戻ります。

4
まあ、はい、「関連」の方が優れています。CCAは、相互共分散と相互共分散の両方を考慮します。
ttnphns

1
ヘリオグラフを使用して正準相関を視覚化することを提案した人もいます。論文ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

回答:


97

まあ、主成分分析(PCA)または線形回帰に対して正規相関分析(CCA)を視覚的に説明するのは本当に難しいと思います。後者の2つは、2Dまたは3Dデータの散布図によって説明および比較されることがよくありますが、CCAでそれが可能かどうかは疑問です。以下に、3つの手順の本質と相違点を説明する図を描いていますが、これらの図(「対象空間」のベクトル表現)でも、CCAを適切にキャプチャすることには問題があります。(正準相関分析の代数/アルゴリズムについては、こちらをご覧ください。)

軸が変数である空間内の点として個体を描く、通常の散布図は変数空間です。逆の方法、つまり変数を点として、個体を軸として描くと、それが対象空間になります。多くの軸を描画することは実際には不要です。なぜなら、空間には、非共線変数の数に等しい非冗長次元の数があるからです。可変点は原点に接続され、対象空間に広がるベクトル、矢印を形成します。だからここにいる(参照)。サブジェクト空間では、変数が中央に配置されている場合、それらのベクトル間の角度のコサインはそれらの間のピアソン相関であり、ベクトルの長さの2乗は分散です。下の図では、表示される変数が中央に配置されています(定数は必要ありません)。

主成分

ここに画像の説明を入力してください

変数X1X2正の相関関係があり、それらの間には鋭角があります。主成分P1P2は、2つの変数がまたがる同じ空間「平面X」にあります。コンポーネントも変数であり、相互に直交(非相関)しているだけです。P1の方向は、このコンポーネントの2つの2乗荷重の合計を最大にするようなものです。およびP2、残りの成分は、に直交進むP1平面Xで。4つのベクトルすべての長さの2乗が分散です(成分の分散は、前述の負荷の2乗の合計です)。成分の添加量は、コンポーネントへの変数の座標である- 左PICに示ささん。各変数は、2つのコンポーネントのエラーのない線形結合であり、対応する負荷は回帰係数です。そして逆に、各成分は、2つの変数のエラーフリーの線形結合です。この組み合わせの回帰係数は、変数に対するコンポーネントのスキュー座標によって与えられます- 右の写真に示されているb。実際の回帰係数の大きさはbabbb12/(|P1||X2|)に、予測成分と予測変数の長さ(標準偏差)の積で割った値。[脚注:上記の2つの線形の組み合わせに表示されるコンポーネントの値は、標準化された値です。開発者 =1。これは、それらの分散に関する情報が負荷によってキャプチャされるためです。非標準化成分値の観点で話すこと、「上記PIC上のあるべき固有ベクトル推論の残りの部分は同じで、値」]a

重回帰

ここに画像の説明を入力してください

PCAではすべてが平面Xにありますが、重回帰では、通常は予測変数X 1X 2の空間である平面Xに属さない従属変数Yが表示されます。しかし、Yは平面Xに垂直に投影され、投影Y 'Yの色合い)は2つのXによる予測または線形結合です。図では、eの2乗の長さが誤差分散です。YY ′の間の余弦X1X2YYYXeYYは、多重相関係数です。PCAの場合と同様に、回帰係数は変数-bに対する予測のスキュー座標(Y)によって与えられます。実際の回帰係数の大きさは、bを予測変数の長さ(標準偏差)で割ったものになります(例:b 2 / |)。X 2 | bbb2/|X2|

正準相関

PCAでは、変数のセットがそれ自体を予測します。これらは変数をモデル化する主成分をモデル化するため、予測子のスペースを残さず、(すべてのコンポーネントを使用する場合)予測にエラーがありません。重回帰では、変数のセットが1つの外部変数を予測するため、予測エラーが発生します。CCAでは、状況は回帰の場合と似ていますが、(1)無関係な変数が複数あり、独自のセットを形成しています。(2)2つのセットは互いに同時に予測します(したがって、回帰ではなく相関)。(3)互いに予測するものは、観測された回帰の予測値ではなく、むしろ抽出物、潜在変数です(参照)。

ここに画像の説明を入力してください

Y1Y2XYVxVyYYYVxVyVyVxϕそれらXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy

CCAとPCA + regressionの違いについては、CCAの実行とPCAを使用した従属変数の構築と回帰の実行も参照してください。


3
+1(数日前から)。私はあなたがこのために6つ以上の賛成票で終わることを本当に望んでいます。CCAがどのように機能するかの非常に素晴らしい概要です。
GUNG -モニカ元に戻し

2
これは、CCAを理解する上で非常に役立ちます。
-Zhenglei

@Glen_b、私は驚きました、あなたがこの答えに賞を与えることに決めたことをとても喜んでいます。
ttnphns

1
@ttnphns、素晴らしい。私はすべてを理解していませんでしたが、それは間違いなく私が出会ったCCAの最良の説明です。そして、私は、何が起こっているのかを視覚化することは本当に重要だと思います。なぜなら、異なる定理を蛇行するのではなく、視覚化できれば何かを覚えているだろうからです。
クリスチャン14年

P1X1X2

2

私にとっては、S。Mulaikの本「The Factors of Factoranalysis」(1972)を読むことは非常に役に立ちました。主成分分析と因子分析からこれまでに既に理解していた概念のアンサンブルで。

この例に興味があるのか​​もしれません(ほんの数日前の1998年の最初の実装/議論から再構築し、SPSSによる計算に対してメソッドをクロスチェックして再検証しました)。こちらをご覧ください。私は小さなマトリックス/ pca-toolsを使用Inside-[R]Matmateていますが、Rあまり労力をかけずに再構築できると思います。


2

この答えは、CCAを理解するための視覚的な助けにはなりませんが、CCAの幾何学的な適切な解釈は、アンダーソン-1958 [1]の第12章に示されています。その要点は次のとおりです。

Nx1,x2,...,xNpXp×NxiXp(N1)p1p2x1,...,xp1p2xp1+1,...,xp

これらの理由から、この視点は興味深いと思います。

  • CCA正規変数のエントリに関する興味深い幾何学的解釈を提供します。
  • 相関係数は、2つのCCA投影間の角度にリンクされています。
  • の比率p1Np2N(N1)N

p1p2

(N1)Nmean(xi)=0

[1]アンダーソン、TW多変量統計分析の紹介。巻 2.ニューヨーク:ワイリー、1958。


1
その本から写真を追加して答えを視覚化できますか?
ttnphns

残念ながら、本にはこの章の写真がありません(実際、本全体に人物がいるとは思いません)。
idnavid

@ttnphns先日、いくつかの時間を過ごし、この点を説明するために小さな例をまとめました。提案をありがとう!
idnavid

1

統計を教える最良の方法は、データを使用することです。多変量統計手法は、多くの場合、直感的でないマトリックスを使用して非常に複雑になります。Excelを使用してCCAを説明します。2つのサンプルを作成し、新しい変量(基本的に列)を追加して、計算を表示します。そして、CCAのマトリックス構築に関する限り、最初の方法は2変量のケースで教えてからそれを拡張することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.