相関または共分散に関するPCA:相関に関するPCAは意味をなしますか?[閉まっている]


32

主成分分析(PCA)では、共分散行列または相関行列のいずれかを選択して、(それぞれの固有ベクトルから)成分を見つけることができます。両方の行列間の固有ベクトルが等しくないため、これらは異なる結果(PCの負荷とスコア)を与えます。私の理解では、これは生データベクトルとその標準化が直交変換を介して関連付けられないという事実によって引き起こされるということです。数学的には、類似した行列(つまり、直交変換によって関連付けられた行列)は同じ固有値を持ちますが、必ずしも同じ固有ベクトルを持つとは限りません。XZ

これは私の心にいくつかの困難を引き起こします:

  1. PCAは、同じ開始データセットに対して2つの異なる答えを得ることができ、両方とも同じことを達成しようとする場合(=最大分散の方向を見つける)、実際に意味がありますか?

  2. 相関行列アプローチを使用する場合、PCを計算する前に、各変数は独自の標準偏差によって標準化(スケーリング)されます。それでは、データが事前に異なる方法でスケーリング/圧縮されている場合、最大分散の方向を見つけることは依然としてどのように意味がありますか?相関ベースのPCAは非常に便利です(標準化された変数は無次元なので、線形結合を追加できます。他の利点も実用性に基づいています)が正しいのでしょうか。

(変数の分散が大きく異なる場合でも)共分散ベースのPCAのみが真に正しいものであり、このバージョンを使用できない場合は、相関ベースのPCAも使用すべきではないようです。

私はこのスレッドがあることを知っています:相関または共分散のPCA?-しかし、それは実用的な解決策を見つけることにのみ焦点を当てているようです。


4
正直に言って、ある時点で質問を読むのをやめると言います。PCAは理にかなっています。はい。相関行列または分散/共分散行列のどちらを使用するかによって、結果が異なる場合があります。変数が異なるスケールで測定される場合、相関ベースのPCAが推奨されますが、これが結果を支配することは望ましくありません。0から1の範囲の一連の変数があり、非常に大きな値(比較的言えば0から1000など)の変数がある場合、2番目の変数グループに関連する大きな分散が支配的です。
パトリック

4
しかし、それは他の多くの技術にも当てはまり、パトリックの主張は合理的だと思います。また、単なるコメントであり、積極的になる必要はありません。一般的に言えば、なぜ問題にアプローチするための1つの真の「代数的」正しい方法があるべきだと思いますか?
ガラ

5
おそらくあなたは間違った方法でPCAを考えています:それは単なる変換であるため、正しいか間違っているか、データモデルに関する仮定に依存していることは疑いありません-回帰分析や因子分析とは異なります
Scortchi -復活モニカ

5
この問題の核心は、標準化が行うこととPCAがどのように機能するかについての誤解にかかっているようです。PCAをよく理解するには、高次元の形状を視覚化する必要があるため、これは理解できます。この質問は、ある種の誤解に基づく他の多くの質問と同様に、良い質問であり、その答えは、多くの人々が以前は十分に理解していなかったかもしれない真実を明らかにする可能性があるため、オープンのままにしておくべきだと思います。
whuber

6
PCAは何も「主張」しません。人々はPCAについて主張し、実際、PCAを分野によって非常に異なる方法で使用しています。これらの使用法のいくつかはばかげているか疑わしいかもしれませんが、この手法の単一のバリアントは、分析のコンテキストや目標を参照せずに「代数的に正しい」ものでなければならないと仮定することはあまり賢明ではないようです。
ガラ

回答:


29

あなたの2つの質問に対するこれらの回答があなたの懸念を鎮めることを願っています:

  1. 相関行列、標準化された(つまり、中心にあるだけでなく、再スケーリングされた)データの共分散行列です。である、の共分散行列(IFなど)別の、異なるデータセット。したがって、それは自然であり、結果が異なることを気にするべきではありません。
  2. はい、標準化されたデータを使用して最大分散の方向を見つけることは理にかなっています。つまり、元の変数の不等分散の影響後、多変量データクラウドの形状が取り除かれました。

@whuberによって追加された次のテキストと画像(私は彼に感謝します。また、下の私のコメントを参照してください)

これが、標準化されたデータの主軸(右図参照)を見つけることが依然として理にかなっている2次元の例です。右側のプロットでは、座標軸に沿った分散が正確に(1.0に)なったとしても、雲はまだ「形状」を持っていることに注意してください。同様に、高次元では、すべての軸に沿った分散が(1.0に)正確に等しくても、標準化された点群は非球形になります。主軸(および対応する固有値)はその形状を表します。これを理解する別の方法は、変数を標準化するときに行われるすべての再スケーリングとシフトが、座標軸の方向でのみ発生し、主方向自体では発生しないことに注意することです。

図

ここで行われていることは幾何学的に非常に直感的で明確であるため、これを「ブラックボックス操作」として特徴付けることは一筋縄ではいきません。それどころか、標準化とPCAはデータを順番に処理する最も基本的かつ日常的な作業の一部ですそれらを理解するために。


@ttnphnsが続きます

とき 1は、PCA(または因子分析や分析の他の同様のタイプ)で行うことを好む相関を(すなわちZ-標準化された変数の)代わりにそれを行うの共分散(すなわち中心の変数に)?

  1. 変数が異なる測定単位である場合。それは明らかです。
  2. 分析に線形関連のみを反映させたい場合。ピアソンrは、ユニスケール(variance = 1)変数間の共分散だけではありません。それは突然線形関係の強さの尺度となりますが、通常の共分散係数は線形関係と単調関係の両方を受け入れます。
  3. 関連付けに生の偏りではなく相対的な偏り(平均から)を反映させたい場合。相関は分布とその広がりに基づいており、共分散は元の測定スケールに基づいています。リッカート型の項目で構成されるいくつかの臨床アンケートで精神科医が評価したように、患者の精神病理学的プロファイルを因子分析する場合、共分散を好むでしょう。なぜなら、専門家は心理学的に評価尺度を歪めることを期待されていないからです。一方、同じアンケートで患者の自画像を分析する場合は、おそらく相関関係を選択します。素人の評価は相対的な「他の人」、「過半数」、「許容偏差」であると予想されるため 1つの評価尺度を「縮小」または「拡大」するルーペ。

1
1.申し訳ありませんが、これは非常に面倒です。外部の個人にとって、標準化はブラックボックス操作であり、データのPCA事前調整の一部です(ICAでも)。特に、PCA出力を物理的に(つまり、標準化されていない変数に関して)解釈する必要がある物理(次元)データに関連する場合、彼は(生の)入力データに対して1つの回答を求めています。
ルコザード

1
最新の改訂版は、「共分散ベースのPCAのみが真に正しいものである」という再主張のようです。これまでの回答全体が本質的に「いいえ、それについて考える間違った方法、そしてここに理由がある」ので、そのような圧倒的な不一致に対して議論を導くことを期待する方法を知ることは困難です。
ニックコックス

4
@Lucozade:アプリケーションの説明について混乱しました:-PCAはどのように何かを推奨していますか?パフォーマンスをどのように測定しましたか?同様にあなたの最後のコメントについて:- 何に最適ですか?
Scortchi -復活モニカ

5
@Lucozade:確かに、Scortchiが言ったことを聞いてください。あなたは幽霊を追いかけ続けているようです。PCAは、単に空間でデータを回転させる特殊な形式です。入力データで行うことを常に最適に実行します。cov-corrジレンマは実用的なものであり、データの前処理に根ざしており、PCAレベルではなく、そのレベルで解決されています。
ttnphns

1
@Lucozade:あなたの特定のニーズでは、covベースのPCAが必要であるという私への返事に基づいた私の(専門家でない)意見でしょう。繰り返しますが、データ/測定タイプ(同じマシンタイプ、およびすべてのデータはボルト)に関して、変数はすべて同種です。私にとってあなたの例は明らかにcov-PCAが正しいケースですが、これは常にそうではないことに注意してください、そしてこれはスレッドの重要なポイントだと思います(cor v。covの選択はケース固有であり、必要ですデータとアプリケーションを最もよく理解している人が判断します)。あなたの研究で頑張ってください!
パトリック

6

実用的な観点から言えば、ここでは人気がない可能性があります-異なるスケールで測定されたデータがある場合、相関(化学計量者であれば「UVスケーリング」)を行いますが、変数が同じスケールであり、それらのサイズが重要な場合(たとえば、分光データを使用する場合)、共分散(データのみを中心とする)の方が意味があります。PCAはスケールに依存する方法であり、ログ変換は非常に歪んだデータにも役立ちます。

ケモメトリックスの20年間の実用化に基づく私の謙虚な意見では、少し実験して、データのタイプに最適なものを確認する必要があります。最終的には、結果を再現し、結論の予測可能性を証明できるようにする必要があります。どうやってそこにたどり着くかはしばしば試行錯誤の場合ですが、重要なことはあなたがすることは文書化され再現可能であるということです。


4
ここで提唱していると思われる実際的なアプローチは、共分散と相関の両方が保証されている場合に要約されます-「両方を試して、最も効果的なものを確認する」。その純粋な経験的スタンスは、研究者が完全にaware意的にそれらのいずれかを好むことを理解していても、研究者が事前に知っておくべき現実に関する独自の仮定またはパラダイムを伴うという事実を覆い隠します。「最も効果的なもの」を選択することは、喜びの感覚、ナルコマニアを活用することです。
ttnphns

-2

xis2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2度。その場合、線形結合の分散を最大化することはほとんど意味がないようです。その場合、PCAは異なるデータセットのソリューションを提供します。これにより、各変数のスケーリングが異なります。その後、corr_PCAを使用しているときに標準化を解除した場合、それは問題なく必要な場合があります。しかし、そのままのcorr_PCAソリューションをそのまま使用してそこで停止すると、物理データに関連するものではなく、数学的なソリューションが得られます。その後の非標準化は最低限必要であると思われる(つまり、逆標準偏差によって軸を「引き伸ばさない」)ため、cov_PCAを使用して開始することができます。あなたが今でも読んでいるなら、私は感銘を受けました!今のところ、Jolliffeの本p。42、これは私に関係する部分です:「ただし、元の変数に関して再表現された相関行列PCは、元の変数に関してではなく、標準化された変数に関して分散を最大化するxの線形関数であることを忘れてはなりません。」 私がこれまたはその影響を誤って解釈していると思われる場合、この抜粋はさらなる議論のための良い焦点になるかもしれません。


3
ここで人々があなたに伝えようとしていたすべてのものと調和したあなた自身の答えが、あなたにとって不安定なままであるのはとても面白いです。あなたはまだThere seems little point相関関係についてPCAで議論しています。さて、生データ(奇妙なことに「物理データ」と呼ぶ)に近づける必要がある場合、相関は別の(「歪んだ」)データに対応するため、実際には使用しないでください。
ttnphns

2
(続き)相関で得られたPCは元の変数の線形結合として再表現できても、相関で得られたPCはそれ自体であり、共分散でPCに「戻す」ことはできない、とJolliffeの引用は述べています。したがって、Jolliffeは、PCAの結果は使用する前処理のタイプに完全に依存し、「真の」、「本物の」、または「普遍的な」PCは存在しないという考えを強調します...
ttnphns

2
(続き)実際、Jolliffeの下のいくつかの行は、PCAのさらに別の「フォーム」- X'Xマトリックス上のPCAについて語っています。変数のセンタリングが行われないため、この形式はcov-PCAよりも元のデータに「近い」ものです。そして、通常、結果はまったく異なります。コサインに対してPCAを実行することもできます。共分散または相関が最も頻繁に使用されますが、人々はSSCPマトリックスのすべてのバージョンでPCAを実行します。
ttnphns

3
この答えの根底にあるのは、データが測定される単位が本質的な意味を持つという暗黙の仮定です。データの意味を1イオタ変更することなく、オングストローム、パーセク、またはその他で長さを測定し、ピコ秒または千年単位で時間を測定することを選択できます。共分散から相関に移行する際に行われる変更は、単に単位の変更にすぎません(ちなみに、これは外れ値データに特に敏感です)。これは、問題が共分散相関ではなく、分析のためにデータを表現する実りある方法を見つけることである
whuber

3
@ttnphns「ただ」に固執します。ありがとう。意味が「深遠」であるかどうかにかかわらず、変数の標準化は文字通りその値のアフィン再表現、つまりその測定単位の変更であるという事実が残っています。この観察の重要性は、このスレッドに現れるいくつかの主張に対するその意味にあります。その中で最も顕著なのは「共分散ベースのPCAが唯一の本当に正しいもの」です。最終的にデータの本質的にarbitrary意的側面に依存する正確性の概念-それらをどのように書き留めるか-は正しくありません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.