なぜ多くの問題があるときにPCAを使用するのですか?


8

(これは簡単な質問です)最近、主成分分析を学んでいますが、多くの問題があるようです:

  1. PCAを適用する前に、データをほぼ同じスケールに変換する必要がありますが、機能スケーリングの実行方法は指定されていません。標準化?ユニット長へのスケーリング?対数変換?Box-Cox変換?私はそれらのすべてが何らかの方法で機能すると信じていますが、それらはさまざまな質問に答えます。そして、問題が与えられたときの変化を理解することは重要です。
  2. PCAを実行するには、固有値と固有ベクトルを計算する必要がありますが、固有ベクトルの符号は不明です。一見すると、SVDは異なる実装間で同じ結果をもたらすため、優れたソリューションである可能性があります。しかし、私が理解しているように、SVDの結果は、任意の、しかし再現可能な固有ベクトルの選択にすぎません。
  3. 主成分は変数の線形結合ですが、意味がありますか?つまり、サルの体温は単位が異なるため、尾の長さの10倍にはできません。(単位といえば、どちらの単位系を使うべきかということは、私の最初のポイントの別の側面です)
  4. 主成分を解釈しようとするとき、番目の要素上の番目の主成分の負荷(係数)、またはそれらの相関を検査する必要がありますか?レンチャー(1992)は、係数のみを見ることを推奨していますが、私の知る限り、この問題についてコンセンサスはありません。iyijXjcorr(yi,Xj)

要約すると、PCAはプロセス全体に多数の主観性とバイアスを導入するため、私には非常に未熟に見える統計的(または間違いなく数学的)メソッドです。それにもかかわらず、それは依然として最も広く使用されている多変量分析法の1つです。それはなぜです?私が提起した問題を人々はどのように克服しますか?彼らも気づいていますか?

参照:

レンチャー、AC「正準判別関数、正準変量および主成分の解釈」アメリカ統計学者、46(1992)、217–225。


PCAはかなり成熟していますが、問題1は非常に重要です。単純な線形回帰を使用して、生の変数に関してPCを再表示するなど、他の問題に対処することができます。記述/デコードの目的でPCを概算する方法もいくつかあります。これらのいくつかについては、「回帰モデリング戦略」の本とコースノートで説明しています
フランクハレル

2
問題2:多くの問題があるのに平方根を使用するのはなぜですか?4の平方根をとると、2になることもありますが、-2になることもあります。一見すると、正の値を取ることは良い解決策になる可能性がありますが、それは単なる恣意的で再現可能な符号の選択です。平方根は私にはかなり未熟に見えます。
アメーバ

1
@amoeba PCAのコンテキストでは、問題#2ははるかに深刻なIMOになる可能性があります。最初の主成分のみを使用する場合、平方根の場合と同様に、2つの結果(+、-)があります。ただし、主成分を考慮すると、不確定な符号が生じるため、異なる結果が生じます。以下のため、があります+++、++ - 、++、+ - 、.- ++、 - + - 、 - +、---、すでにたくさんあります!pp2pp=3
ナルゾク

4
「符号恣意性」は、PCAの結果をどのように表現するかの単なるアーティファクトです。PCA自体には恣意性はありません。PCAが動作する固有空間は完全に明確に定義されています。問題(1)と(3)は、主題の知識と分析の目的を適切に使用できるため、PCAの利点です。これを「未熟」と呼ぶと、統計分析の全体的なポイントであるIMHOを逃します。IMHOは、(データをブラックボックスにダンプするのではなく)創造的かつ原理的な方法で実際の問題を解決します。
whuber

3
ここで言及していないのは、ヒストグラム、密度プロット、または散布図を使用するのと同じように多くの人がPCAを使用することです。これは、問題の最終的な解決策ではなく、データをすばやく検査する手段です。PCAは、次元の数が増えるにつれてこの目的に役立ちますが、スケーリングするかどうか、およびスケーリングする方法の選択に注意を払うと、もちろんより有益です。
Frans Rodenburg、

回答:


4

「符号恣意性」は、PCAの結果をどのように表現するかの単なるアーティファクトです。PCA自体には恣意性はありません。PCAが動作する固有空間は完全に明確に定義されています。問題(1)と(3)は 、主題の知識と分析の目的を適切に使用できるため、PCAの利点です。これを「未熟」と呼ぶと、統計分析の全体的なポイントであるIMHOを逃します。IMHOは、(データをブラックボックスにダンプするのではなく)創造的かつ原理的な方法で実際の問題を解決します。

– whuber

ここで言及していないのは、ヒストグラム、密度プロット、または散布図を使用するのと同じように多くの人がPCAを使用することです。これは、問題の最終的な解決策ではなく、データをすばやく検査する手段です。PCAは、次元の数が増えるにつれてこの目的に役立ちますが、スケーリングするかどうか、およびスケーリングする方法の選択に注意を払うと、より有益になります。

– Frans Rodenburg


2
これらのコメントは、コミュニティのwikiの回答としてコピーしました。多かれ少なかれ、この質問に対する回答だからです。答えと質問の間に劇的なギャップがあります。問題の少なくとも一部は、一部の質問がコメントで回答されていることです。質問に回答したコメントが代わりに回答である場合、未回答の質問が少なくなります。
mkt-モニカを

3
+1。そういう答えをCWにする必要はありません。もちろん、そうしたいのであれば問題ありません。
アメーバ

@amoebaおかげで、元の貢献を追加した場合は、通常、そうすることでより快適になります。ただし、覚えておきます。
mkt-モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.