PCAを行う前に、他の標準化因子ではなく標準偏差で割るのはなぜですか？

生データをその標準偏差で除算する理由について、次の正当化（cs229コースノートから）を読みました。

ここに画像の説明を入力してください

説明が言っていることは理解できますが、なぜ標準偏差で割るとそのような目標が達成されるのかはわかりません。誰もが同じ「スケール」にいるようにそれは言います。ただし、標準偏差で除算することでそれが達成される理由は完全には明らかではありません。同様に、分散で割ると何が悪いのでしょうか？なぜ他の数量ではないのですか？のような...絶対値の合計？または他の標準... STDを選択するための数学的な正当化はありますか？

この抽出物の主張は、数学（および/または統計）を通じて導き出される/証明できる理論的な声明なのか、それとも「実践」で機能するように見えるために私たちが行う声明の1つですか？

基本的に、その直観が真実である理由の厳密な数学的説明のいずれかを提供できますか？または、それが単なる経験的な観察である場合、なぜPCAを行う前にそれが一般に機能すると考えるのですか？

また、PCAのコンテキストでは、これは標準化または正規化のプロセスですか？

私が持っていたいくつかの他の考えは、STDがなぜ「説明」するかもしれない：

$\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p$

おそらく関連する質問があることがわかりました。

相関または共分散に関するPCA？

しかし、「相関」または「共分散」をいつ使用するかについてはもっと話しているように見えましたが、厳密または説得力のある、または詳細な正当化が欠けていました。

同じ：

分析前にデータを正規化する必要がある理由

関連：

SVD / PCAの変数の「正規化」

machine-learning pca mathematical-statistics

— ピノキオ
ソース

数学的な理由があります。各変数の（中心の）データをSDで除算すると、共分散行列が元の（中心の）データの相関行列にすぎない変換済みデータセットが生成されます。その後、再び相関対共分散行列領域になります。データを正規化すると、共分散行列が相関行列に変わることの証明を求めていますか？

— シルバーフィッシュ

タイトルの質問は、（正規化しないのではなく）正規化の目的を尋ねているように見えます。これは、「相関または共分散に関するPCA」の複製です。ただし、実際に求めているように見えるのは、（分散や範囲などで分割するのではなく）STDで分割することで正規化が行われる理由です。もしそうなら、タイトルの質問をより正確にするためにおそらく編集したいですか？

— アメーバは、モニカを復活させる

用語に関しては、「正規化」は正確な用語ではなく、さまざまなものを指します。一方、「標準化」とは、平均を減算し、標準偏差で割ることを意味します。

— アメーバは、モニカを復活させる

あなたの質問は非常に良いと思います（+1）。実際、他の何かで割ることによって正規化できます。たとえば、標準偏差は非常に堅牢ではない尺度であり、強い外れ値があると誤解を招く可能性があります。そのため、代わりにスプレッドの堅牢な尺度で除算することを選択できます（「絶対偏差の中央値」を参照）。STDを使用することが正規化の最良の方法である理由についての「厳密な数学的説明」はありません。また、多くの場合うまく機能するのは「経験的観察」にすぎません。

— アメーバは、モニカを復活させる

「代わりに分散で分割しない理由」について-これは、次元の不整合によってかなり簡単に説明できます。たとえば、変数の1つの単位を変更すると、奇妙な結果が得られます。「なぜMADで除算しない」-データが正規分布している場合、（母集団で）MADはSDに比例するため、MADの適切な倍数で除算して（非効率ですが、おそらく堅牢ですか？）相関の推定。それはもっと面白いです。

— シルバーフィッシュ

回答:

これは、「標準偏差で除算することでこのような目標が達成される理由がわからない」に対する部分的な答えです。特に、変換された（標準化された）データを「同じ規模」にする理由。この質問は、より深い問題を示唆しています（数学的に「実際に」意味することとリンクしている他の「実際に」機能している可能性のあるものは何ですか？） -つまり、本文でその主張を実現します。

$i$ $j$ $i^{th}$ $j^{th}$ $i$ $i$ $i^{th}$ $i^{th}$

$i^{th}$ $X_i$ $j^{th}$ $X_j$

C o v (X_{i}, X_{j}) = σ_{X_{i}} σ_{X_{j}} C o r (X_{i}, X_{j})

$Cov(X_i, X_j) =\sigma_{X_i} \, \sigma_{X_j} \, Cor(X_i, X_j)$

$Z_i = \frac{X_i}{\sigma_{X_i}}$

V a r (Z_{i}) = V a r (\frac{X_{i}}{σ_{X_{i}}}) = \frac{1}{σ_{X_{i}}^{2}} V a r (X_{i}) = \frac{1}{σ_{X_{i}}^{2}} σ_{X_{i}}^{2} = 1

$Var(Z_i) = Var\left(\frac{X_i}{\sigma_{X_i}}\right) = \frac{1}{\sigma_{X_i}^2}Var(X_i) = \frac{1}{\sigma_{X_i}^2} \sigma_{X_i}^2 = 1$

$Z_j$ $i$ $j$

C o v (Z_{i}, Z_{j}) = σ_{Z_{i}} σ_{Z_{j}} C o r (Z_{i}, Z_{j}) = C o r (Z_{i}, Z_{j})

$Cov(Z_i, Z_j) =\sigma_{Z_i} \, \sigma_{Z_j} \, Cor(Z_i, Z_j) = Cor(Z_i, Z_j)$

$Cor(Z_i, Z_j)$ $Cor(X_i, X_j)$

新しい共分散行列の対角線に沿って、得られることに注意してください。 $Cov(Z_i, Z_i) = Var(Z_i) = 1$ 予想どおり、対角線全体が1で埋められます。この意味で、データは「同じスケール」になります-少なくとも平均がゼロで分散（および標準偏差）が1で始まる、ほぼ正規分布である場合、それらの周辺分布は非常に似ているはずです。ある変数の変動性が他の変数を圧倒するということはもはやありません。もちろん、異なる広がりの尺度で分割することもできます。分散は、寸法の不整合のために特に悪い選択でした（たとえば、メートルからキロメートルに変数の1つが含まれる単位を変更した場合に何が起こるかを考えてください）。絶対偏差の中央値（またはMADの適切な倍数）のようなものあなたが標準偏差の一種の堅牢な推定量としてそれを使用しようとしている場合）がより適切だったかもしれません。しかし、それでもその対角線は1の対角線に変わりません。

結果は、標準化されたデータの共分散行列に作用する方法が、元のデータの相関行列を本質的に使用していることです。PCAで使用したい場合は、相関または共分散のPCAを参照してください。

— 銀魚
ソース

この答えは、標準偏差が広がりの尺度として採用され、正規化に使用される理由についての実際の（そして重要な）問題に実際には触れていないと思います。代わりに絶対偏差の中央値をとらないのはなぜですか？確かに、結果の共分散行列は「デフォルト」の相関行列ではありませんが、たとえば、相関行列のより堅牢な推定など、おそらくより良いでしょう。OPに対する最後のコメントも参照してください。

— アメーバは、モニカを復活させる

@ameoba「中程度の」点で、新しい共分散行列の対角線に沿って1つの分散を取得するという事実は、基本的に、PCAの観点から変数を「同じスケール」に変換したデータを取得することを意味します。この質問によって提起された「非常に深い」問題について、「なぜPCAのスケールの尺度として分散を使用するのか」と尋ねることの間に大きな違いがあるかどうかはわかりません。「なぜPCAは（共）分散に関心があるのか？」-または、少なくとも、2つの問題は密接に関連していること。

— シルバーフィッシュ

@amoeba、なぜMADまたはSDではなく分散で除算しないのは、本質的に、まったく異なるスケーリングを行う理由と同じ問題です：つまり、代わりに共分散でPCAを実行しないのはなぜですか？前のコメントでこの考えを支持しています。

— ttnphns

@ttnphns：異なる変数が完全に比較できないスケール（温度、長さ、重量など）を持っている場合、変数を何らかの方法で正規化するという要望は非常に理解しやすいものです。これは、共分散行列の代わりに相関行列を使用するための一般的な議論です。しかし、誰かが外れ値を心配している場合、平均値の代わりに中央値を減算し、SVDの代わりにMADで除算することに何の問題もないと思います。

— アメーバは、モニカを復活させる

@amoeba、線形PCAは、マトリックスがSSCPタイプのマトリックスである必要があります。元の変数の線形変換では、この型が保持されます。もちろん、任意の非線形変換（たとえば、スピアマンロー行列を取得するためのランキングなど）を行うこともできますが、コンポーネントスコアと負荷は、データとの直接的な（最小二乗最小化の意味での）接続を失います。代わりに、変換されたデータを表すようになりました！

— ttnphns

なぜ
分散で除算するのが間違っているのか、標準偏差で除算するのはなぜですか？

$z$

したがって、標準正規化（平均センタリング+標準偏差によるスケーリング）は、データに適した標準正規分布を考慮する場合に意味があります。

なぜ他の数量ではないのですか？のような...絶対値の合計？または他の標準...

データをスケーリングするために他の数量が使用されますが、平均中心化と標準偏差による除算を使用する場合のみ、この手順は標準化と呼ばれます。スケーリングは一般的な用語です。

たとえば、分光データを使用しており、検出器には波長依存の感度と（電子）バイアスがあることがわかっています。したがって、私は、較正オフセット（ブランク）信号を減算し、較正係数により（割る）を乗じて。

また、平均ではなく、総平均の代わりにコントロールグループの平均など、他のベースライン値に集中している可能性があります。（個人的には、変量が既に同じ物理単位を持ち、同じ大きさであるため、標準化することはほとんどありません）

参照：モデルを作成する前に変数を調整（標準化など）することがよくあります。これはいつ良いアイデアで、いつ悪いものですか？

— cbeleitesはMonicaをサポートしています
ソース

+1。分光データの素晴らしい例。ちなみに、10k担当者に達しました。

— アメーバは、モニカーを復活

このリンクはあなたの質問に明確に答えます、私は推測します：http : //sebastianraschka.com/Articles/2014_about_feature_scaling.html

私は小さな部分を引用します：

Zスコアの標準化または最小-最大スケーリング？

「標準化または最小-最大スケーリング？」-この質問に対する明確な答えはありません。アプリケーションに本当に依存します。

たとえば、クラスタリング分析では、特定の距離測定に基づいてフィーチャ間の類似性を比較するために、標準化が特に重要になる場合があります。別の顕著な例は主成分分析です。ここでは、分散を最大化する成分に関心があるため、通常は最小-最大スケーリングよりも標準化を優先します（質問に応じて、PCAが成分の代わりに相関行列を介して成分を計算する場合共分散行列。ただし、以前の記事でPCAについて詳しく説明しました。

ただし、これは、Min-Maxスケーリングがまったく役に立たないという意味ではありません！一般的なアプリケーションは画像処理で、特定の範囲（RGBカラー範囲の場合は0〜255）に収まるようにピクセル強度を正規化する必要があります。また、典型的なニューラルネットワークアルゴリズムには、0-1スケールのデータが必要です。

— エスラ
ソース