LDAを前処理ステップとして使用する場合の機能の標準化


9

次元削減(またはPCAによる次元削減後の変換)にマルチクラス線形判別分析(または、多重判別分析をときどき読む)を使用する場合、一般的に、完全に異なるスケールで測定されていても、機能は必要ありませんよね?LDAには、すでに正規化されたユークリッド距離を意味するマハラノビス距離に類似した用語が含まれているためですか?

したがって、それは必要ではないだけでなく、標準化された機能と標準化されていない機能のLDA後の結果はまったく同じになるはずです!?


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesいいえ、このステートメントは正しくありません。LDAによる標準化の問題は、他の多変量メソッドと同じです。たとえば、PCA。マハラノビス距離はそのトピックとは関係ありません。
ttnphns 2014

ありがとう、たとえば、PCAのこの「標準化の問題」についてコメントしていただければ幸いです。機能がPCA用に標準化されていない場合、いくつかの機能は異なるスケールで測定され、完全に異なるコンポーネント軸を提供する場合に、より多くの(加重)寄与をしていませんか?そしてLDAにとって、なぜそれが必要ではないのですか?結果(線形判別)が異なるのはなぜですか?

2
標準化(つまり、中心にしてからスケーリング)すると、実際には相関関係を分析することになります。標準化しない場合は、中心のみで、実際に共分散を分析します。異なるデータを扱うようなものなので、結果は異なりますが、これは正常です。この事実は心配する必要はありません。スレッドstats.stackexchange.com/q/62677/3277をお読みください
ttnphns 2014

2
@SebastianRaschka、amoeba:私はコメントを再考する必要がありThe issue of standardization with LDA is the same as in any multivariate methodます。実際、LDAを使用すると(PCAなどとは対照的に)、データを中央揃えした(判別式を抽出するために、LDAは常に変数を中央揃えする)か、データをz標準化したかによって、結果が変わることはありません
ttnphns 2014

2
(続き)固有値、標準化された係数、構造相関、判別スコア-すべて同じです。固有ベクトルのみが異なります。LDAの主な結果に標準化の影響がないのは、LDA がBetween-to-Within共分散の比率を分解するためであり、(PCAのように)共分散自体に大きさがあるわけではありません。
ttnphns 2014

回答:


13

この回答の功績は、上記のコメントですべてを説明した@ttnphnsにあります。それでも、私は拡張した答えを提供したいと思います。

あなたの質問:標準化された機能と標準化されていない機能のLDAの結果はまったく同じになるのでしょうか?---答えは「はい」です。最初に非公式の議論を行い、次にいくつかの数学を進めます。

風船の片側に散布図として表示された2Dデータセットを想像してください(ここから元の風船の写真): 風船上のLDA

xy


W1BWBBv=λWv

XT=XXXXnew=XΛΛTnew=ΛTΛWnewBnew

v

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1vλ

XvXΛ(Λ1v)=Xv


2
XXΛΛ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.