CCAを実行するか、PCAで従属変数を作成してから回帰を実行するか


9

2つの多次元データセットYが与えられると、主成分分析(PCA)を使用して代理従属変数を作成することにより、多変数分析を実行する人がいます。すなわち、上の実行PCAであるYの第一の構成要素に沿って得点を取り、セットY '、および上にそれらのスコアの重回帰を実行XY ' = β X + ε。(私はこの記事を基に質問をしています)。 バツYYyバツy=βバツ+ε

私には、2つのデータセット間の正規相関分析(CCA)の偽装された形式のように見えます。しかし、この領域に背景がないため、指を置くことができません。だから私の質問は、CCAと比較して、PCA +回帰分析の長所/短所は何でしょうか?

直感は、CCAはここでより合理的である必要があると言います。なぜなら、説明された分散を盲目的に最大化するのではなく、との相関を最大化するという最終的な目的を念頭に置いて、正規変量を構築するからです。私は正しいですか? バツ


参照:Mei et al。、2010、メタボリックシンドロームコンポーネントの遺伝的関連研究のための主成分ベースの多変量回帰

回答:


6

これは良い質問ですが、PCAとCCAの取引を知っているように見えるので、自分で答えることができます。そしてあなたはする:

[CCA]は、盲目的に[Xの存在を記述]最大説明付き分散[Y]を最大化しないように正準変量を構築しますが、Xとの相関を最大化するという最終目的をすでに念頭に置いています。

絶対に本当。1番目のYのPCとXセットの相関は、ほとんどの場合、1番目のYのCVとXの相関よりも弱くなります。これはから明らかに来て写真 CCAアクションでPCAを比較します。

PCA +回帰は、2ステップであり、最初は「監視なし」(前述の「ブラインド」)戦略ですが、CCAは1ステップの「監視あり」戦略です。どちらも有効です-それぞれ独自の調査環境にあります!

セットYのPCAで取得される第1主成分(PC1)は、Y変数の線形結合です。セットYとXのCCAのセットYから抽出された最初の正準変量(CV1)も、Y変数の線形結合です。しかし、それらは異なります。(リンクされた画像を調べてください。CCAがPCAよりも実際には回帰の形式に近いというフレーズにも注意してください。)

PC1 セットYを表します。これは線形の要約であり、後で Y 変数(変数XによるPC1の後続の回帰など)に直面するためのセットYの「代理」です。

CV1 は、セットY 内のセットXを表します。これは、Yに属する「インサイダー」であるYに属するXの線形イメージです。YX関係はすでに存在しています。CCAは多変量回帰です。

子どものサンプルの学校不安アンケート(フィリップステストなど)の結果-Y項目、および社会適応アンケートの結果-X項目があるとします。2つのセットの関係を確立したいと思います。内部Xと内部Yの両方のアイテムは相関しますが、それらはまったく異なり、アイテムスコアをどちらかのセットで単一のスコアに率直に合計するという考えに満足していないため、多変量のままにすることを選択します。

YのPCAを実行し、PC1を抽出してから、X項目で後退した場合、それはどういう意味ですか?それは私が不安のアンケート(Y項目)を、自分を表現できる現象の主権的な(閉じた)領域として尊重することを意味します。セット全体Yを表す(最大分散を考慮した)アイテムの最も重み付けされた合計を発行することによって表現します-一般的な要因/ピボット/傾向、「主流の学校不安複合体」、PC1。表現が形成される前に、それが社会的適応とどのように関連している可能性があるかという次の質問に戻ります。この質問は、回帰で確認します。

CCAを行う場合YとXの比較、正規変量の最初のペアを抽出-各セットから1つ-最大の相関関係を持っている、それはどういう意味ですか?それは、不安と適応の両方の(背後にある)間の共通の要因が、それらを相互に相関させるのではないかと私が疑うことを意味します。ただし、PCAまたは結合されたセット「X変数+ Y変数」の因子分析を使用してその因子を抽出またはモデル化する理由も根拠もありません(たとえば、不安と適応を概念的に2つのまったく異なるドメインと見なしているため、または、2つの質問表のスケール(単位)が非常に異なるか、「マージ」するのが恐ろしい形の分布であるか、アイテムの数が非常に異なるため)。セット間の標準的な相関関係だけで満足します。あるいは、セットの背後にある「共通要素」を想定していないかもしれませんが、そして単に「X効果Y」と考えてください。Yは多変量であるため、効果は多次元であり、1次の最強の効果を求めています。これは1番目の正準相関によって与えられ、それに対応する予測変数はセットYのCV1です。CV1はYから釣り出されますが、Yはそれのselbständigプロデューサー。


1
+1。他の回帰と同様に、CCAは過剰適合しがちであることを追加したいと思います。したがって、YやXに多くの変数が含まれている場合、CCAを実行すると、Yの最初のコンポーネントがXからほぼ100%予測されますが、実際には完全にノイズが原因です。CCAを実行する前にXとYでPCAを実行することは、一種の正則化として機能します。Yを極端な形で1台のPCに削減します。
amoeba

@amoeba、追加ありがとうございます。それは私が答えで完全に省略した物語の推論的な側面(人口、重要性、節約)に触れます。私はあなたが言っていることを理解していると思いますが、誰かのためにそれを控えめに言っているのです。過剰適合、ノイズ-これらは説明する必要があるので、コメントをアンラップするために別の回答を発行することをお勧めします。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.