正規化とスケーリング

45

データ「正規化」とデータ「スケーリング」の違いは何ですか？今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか？

例を挙げて詳しく説明してください。

— d.putto
ソース

6

通常、正規化とは、観測値を（は測定可能な、通常は連続的な関数）に変換して、正規分布に見えるようにすることです。データを正規化するための変換の例には、べき乗変換があります。スケーリング単にことを意味し

、

、これは一定して観察を乗じ、ある

（キロナノメートルなど）のスケールを変更します。

x

${\bf x}$

f (x)

$f({\bf x})$

f

$f$

f (x) = c x

$f({\bf x})=c{\bf x}$

c \in R

$c\in {\mathbb R}$

c

$c$

1

また、関心の関連/：-間の正規化-と-標準いただきまし-差。

— GUNG -復活モニカ

正規化はまた、標準と同じスケーリング方法である

答えるほどの統計上の評判がありません。あなたの質問のタイトルは、標準化と標準化の両方であるべきだと思います。これらは異なるスケーリングのアプローチだからです。正規化では値を0〜1の範囲に再スケーリングし、標準化では分布をシフトして平均を0、標準偏差を1にします。

— ハミドハイダリアン

23

私は「公式」の定義を認識していません。たとえ存在していても、実際には一貫して使用されていないので、信頼してはいけません。

とはいえ、統計のスケーリングは通常、の形式の線形変換を意味します。 $f(x) = ax+b$

正規化とは、変換されたデータがほぼ正規分布となるように変換を適用することを意味する場合もありますが、単純に異なる変数を共通のスケールに置くことも意味します。標準化、つまり平均値を減算し、標準偏差で割ることは、後の使用例です。ご覧のとおり、これはスケーリングの例でもあります。最初の例は、対数正規分布データのログを取ることです。

しかし、あなたがそれを取り除くべきことは、あなたがそれを読むとき、著者がしたことのより正確な説明を探すべきであるということです。コンテキストから取得できる場合があります。

— エリック
ソース

14

スケーリングは、0から1、または100の間など、数字を正しく感じることに関する個人的な選択です。たとえば、ミリメートル単位で指定されたデータをメートル単位に変換するのは、より便利であるか、メートル単位であるためです。

正規化は、平均値を削除してサンプルの標準偏差で除算するなど、外部の「標準」（ローカル標準）にスケーリングすることです。たとえば、ソートされたデータを累積法線または累積ポアソンと比較できるようにする、またはなんでも。

そのため、講師または管理者がデータを「正規化」したい場合は、「自分のやり方でそれを再スケーリング」することを意味します;-)

— フィリップ・オークリー
ソース

9

あなたが正確にこれを意味するかどうかはわかりませんが、多くの人がデータの標準化を意味する正規化について言及しています。標準化はデータを変換するため、平均0と標準偏差1になります。

x <- (x - mean(x)) / sd(x)

また、データを0〜1の範囲に変換する場合のように、データスケーリングの正規化という用語を使用している人もいます。

x <- (x - min(x)) / (max(x) - min(x))

わかりにくいかもしれません！

どちらの手法にも長所と短所があります。外れ値が多すぎるデータセットをスケーリングすると、非外れ値データが非常に短い間隔で終わる可能性があります。したがって、データセットの外れ値が多すぎる場合は、標準化を検討することをお勧めします。それでも、それを行うと、負のデータ（必要ない場合もある）と無制限のデータ（必要ない場合もあります）になります。

— レナータ
ソース

3

センタリングとは、変数からランダム変数の平均を具体化することを意味します。すなわちx -xi

スケーリングとは、変数をその標準偏差で除算することです。すなわちxi / s

この2つの組み合わせは、正規化または標準化と呼ばれます。すなわちx-xi / s

— フランクフルト・オグンファンミニイ
ソース

質問は重複しています。

— マイケルチャーニック