主成分分析を実行する前にデータをログ変換するのはなぜですか?


16

ここのチュートリアルに従っている:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/ PCAの理解を深めるために。

このチュートリアルでは、Irisデータセットを使用し、PCAの前にログ変換を適用します。

次のコードでは、[1]で示唆されているように連続変数に対数変換を適用し、PCAの適用前に変数を標準化するための呼び出しでset centerand scaleequal to TRUEに注意してくださいprcomp

Irisデータセットの最初の4列で最初にlog関数を使用する理由を説明してください。データを相対的にすることと関係があることは理解していますが、ログ、センター、スケールの正確な機能は混乱しています。

上記の参考文献[1]は、VenablesおよびRipley、ModernがS-PLUS統計を適用した、セクション11.1で簡単に述べています。

データは物理的な測定値であるため、適切な初期戦略は対数スケールで作業することです。これは全体にわたって行われました。


回答:


19

アイリスデータセットは、PCAを学習するための良い例です。そうは言っても、がく片と花びらの長さと幅を説明する最初の4列は、強く歪んだデータの例ではありません。したがって、結果の主成分の回転はログ変換によってまったく変化しないため、データをログ変換しても結果はあまり変わりません。

他の状況では、ログ変換が適切な選択です。

データセットの一般構造の洞察を得るために、PCAを実行します。私たちは、PCAを支配する可能性のある些細な影響を取り除くために、センタリング、スケーリング、時には対数変換を行います。PCAのアルゴリズムは、各PCの回転を見つけて、残差の2乗、つまりサンプルからPCまでの垂直距離の2乗の合計を最小化します。値が大きいとレバレッジが高くなる傾向があります。

2つの新しいサンプルを虹彩データに注入することを想像してください。花びらの長さが430 cm、花びらの長さが0.0043 cmの花。両方の花は非常に異常であり、それぞれ平均的な例よりも100倍大きく、1000倍小さくなっています。最初の花のレバレッジは非常に大きいため、最初のPCはほとんどの場合、大きな花と他の花との違いを説明します。種のクラスタリングは、その1つの外れ値のために不可能です。データがログ変換される場合、絶対値は相対変動を表します。今、小さな花は最も異常なものです。それにもかかわらず、1つの画像にすべてのサンプルを含めることと、種の公平なクラスタリングを提供することが可能です。この例を確認してください。

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

ここに画像の説明を入力してください

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

ここに画像の説明を入力してください


2
素敵なデモとプロット。
シャドウトーカー

3

さて、他の答えは、極端な値または外れ値の影響を減らすために対数変換が使用される場合の例を示します。
あなたがされているデータを分析しようとすると、別の一般的な引数は、発生乗法構成の代わりに、addititively彼らの数学のような添加剤組成物によってPCAとFAモデルを- 。乗法組成は、最も単純な場合、表面、身体の体積などの物理データで(機能的に)(たとえば)長さ、幅、深さの3つのパラメーターに依存します。初期のPCAの歴史的な例の構成を再現できますが、それは「サーストンのボール(または「キューブ」)問題」などと呼ばれると思います。その例のデータを試したところ、対数変換されたデータが、3つの1次元測定値を使用して、測定された体積と表面データの構成のモデルをよりわかりやすく明確にすることがわかりました。

このような単純な例に加えて、社会調査データの相互作用を考慮すると、通常、それらをより基本的な項目の乗法で構成された測定値と同様に考える。したがって、相互作用を具体的に見ると、対数変換は、分解の数学モデルを取得するための特別な有用なツールになる可能性があります。


「multipicative」な構成をよりよく説明できる参考文献をいくつか挙げてください。どうもありがとう!
アマティア

1
@Amatya-「thurstone-box-problem」は見つかりませんでしたが、キューブ上の(ドイツ語)サイトディスカッションpcaで、幅、長さ、高さを基本アイテム、サーフェスとボリュームを乗法的に組み合わせた追加アイテムとして含みます。おそらく、定義に含まれている式で十分です。参照sgipt.org/wisms/fa/Quader/q00.htm
ゴットフリート・ヘルムズ


@GottfriedHelms変数を標準化する場合、なぜ変数もログ変換する必要があるのか​​、まだよくわかりません。私は極端な外れ値の不要な影響を減らす一般的な原理を理解していますが、すでにそれらを標準化(センタリング、スケーリング)している場合、それに加えてそれをログ変換すると実際にデータが歪められるようです。
ゆうチェン

@YuChen-任意の対数変換は、乗法合成を加法合成に変換します。加法合成は、すべてのタイプのコンポーネントおよび因子分析の基本的な仮定です(線形性などを除く)。そのため、データに乗法構成が含まれている場合、対数変換を検討する価値があります。
ゴットフリードヘルムズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.