正規化と標準化の違いは何ですか?


118

職場では、上司が正規化について聞いたことがないので、これについて議論していました。線形代数では、正規化はベクトルをその長さで除算することを指しているようです。また、統計では、標準化は平均を差し引いてからそのSDで割ることを指すようです。しかし、それらは他の可能性とも互換性があるようです。

ある種のユニバーサルスコアを作成するとき、それは異なるメトリックを構成します。これらは異なる手段と異なるSDを持ち、正規化しますか、標準化しますか。ある人は、各メトリックを取得し、それらをSDで個別に分割するだけの問題だと言った。次に、2つを合計します。そして、それは両方のメトリックを判断するために使用できる普遍的なスコアになります。2

たとえば、地下鉄に乗って仕事をする人の数(NYCの場合)と、車で仕事に行く人の数(NYCの場合)があるとします。

yの

Trainx
Cary

交通量の変動をすばやく報告するためにユニバーサルスコアを作成する場合、および追加することはできません。電車に乗る人が多くなるからです。NYCには800万人が住んでおり、さらに観光客もいます。車で毎日何十万人もの人々が電車に乗っている何百万人もの人々です。したがって、それらを比較するには、同様のスケールに変換する必要があります。平均y mean(x)mean(y)

場合mean(x)=8,000,000

およびmean(y)=800,000

とを正規化し、合計しますか?とを標準化し、合計しますか?または、それぞれをそれぞれのSDで割り、合計しますか?変動するとき、合計のトラフィック変動を表す数値に到達するため。y x yxyxy

参考のために本の記事または章をいただければ幸いです。ありがとう!

また、私がやろうとしていることの別の例もあります。

あなたが大学の学部長であり、入学要件について話し合っていると想像してください。少なくとも特定のGPAと特定のテストスコアを持つ学生が必要な場合があります。それらが両方とも同じ規模であれば、2つを加算して、「少なくとも7.0を持っている人なら誰でも認められる」と言うことができるのでいいでしょう。そうすることで、入学希望者が4.0 GPAを取得している場合、3.0のテストスコアを取得しても、入学することができます。逆に、3.0のGPAがあったとしても、4.0のテストスコアで入院することができます。

しかし、それはそうではありません。ACTは36ポイントスケールであり、ほとんどのGPAは4.0です(一部は4.3で、いらいらします)。ACTとGPAを追加して、ある種のユニバーサルスコアを取得することはできないため、それらを追加できるように変換して、ユニバーサルアドミッションスコアを作成するにはどうすればよいですか。そして、学部長として、特定のしきい値を超えるスコアを持つ人を自動的に受け入れることができました。または、スコアが上位95%以内にある全員を自動的に受け入れます。

それは正規化でしょうか?標準化?または、それぞれをSDで割ってから合計しますか?


4
質問の最後の部分は、複数の属性から評価を作成しようとしているように聞こえます。 詳細については、stats.stackexchange.com / q / 9137およびstats.stackexchange.com/q/9358の質問と回答を参照してください。特に、正規化も標準化も学部長の問題に直接関連しないことに注意してください。
whuberの

回答:


65

正規化は、値を[0,1]の範囲に再スケーリングします。これは、すべてのパラメーターが同じ正のスケールを持つ必要がある場合に役立ちます。ただし、データセットの外れ値は失われます。

Xchanged=XXminXmaxXmin

標準化は、データを再スケーリングして、平均()が0、標準偏差()が1(単位分散)になるようにします。σμσ

Xchanged=Xμσ

ほとんどのアプリケーションでは、標準化が推奨されます。


7
データの正規化時に「データセットの外れ値が失われる」理由を説明してください。
学習者

3
この場合の再スケーリングの外れ値は結果に影響し、失われることはありません。
フェラス

@learner [1 2 3 4 5 1000 2 4 5 2000 ...]があると想像してください。1000データポイントの正規化された値は、2000
COLD ICE、

3
@COLDICE使用する正規化アルゴリズムに依存すると思います。たとえば、データセット内のすべての数値を最大値(2000など)で除算した場合、範囲は0〜1であり、外れ値には影響しません。
アリソン

3
これは異常値にはまったく影響を与えないと思います。そうでなければ、異常検出ソフトウェアではこれは行われません。
アリソン

44

ビジネスの世界では、「正規化」とは通常、値の範囲が「0.0〜1.0に正規化される」ことを意味します。「標準化」とは、通常、値の範囲が「標準化」され、その値がその平均からどれだけの標準偏差であるかを測定することを意味します。しかし、誰もがそれに同意するわけではありません。定義を使用する前に説明することを勧めします。

いずれにせよ、あなたの変換は何か有用なものを提供する必要があります。

あなたの電車/車の例では、平均から標準偏差がいくつあるかを知ることから何かを得ていますか?これらの「標準化された」メジャーを互いにxyプロットとしてプロットすると、相関関係が表示される場合があります(右側の最初のグラフを参照)。

http://en.wikipedia.org/wiki/Correlation_and_dependence

もしそうなら、それはあなたにとって何か意味がありますか?

2番目の例に関して言えば、GPAをあるスケールから別のスケールに「等しく」したい場合、これらのスケールには共通点がありますか?つまり、これらの最小値を同等に、最大値を同等に変換するにはどうすればよいでしょうか?

「正規化」の例を次に示します。

正規化リンク

GPAとACTのスコアを交換可能な形式で取得したら、ACTとGPAのスコアを別々に比較検討するのは理にかなっていますか?もしそうなら、あなたにとって何の重みが意味しますか?

編集1(2011年5月3日)======================================== =

最初に、上記のwhuberによって提案されたリンクを確認します。要するに、2変数問題の両方で、1つの変数と他の変数の「等価性」を考え出す必要があります。そして、1つの変数を他の変数と区別する方法。つまり、これを単純な線形関係に単純化できる場合でも、1つの変数を他の変数と区別するために「重み」が必要になります。

次に、2つの変数の問題の例を示します。

マルチ属性ユーティリティ

最後のページから、標準化された列車の交通量U1(x)と標準化された車の交通量U2(y)が「付加的に独立している」と言えるなら、次のような簡単な方程式で逃げることができるかもしれません。

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

ここで、k1 = 0.5は、標準化された自動車/列車の交通に無関心であることを意味します。k1が高いほど、列車の交通量U1(x)がより重要であることを意味します。

ただし、これら2つの変数が「加算的に独立」していない場合は、より複雑な方程式を使用する必要があります。1つの可能性を1ページに示します。

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

どちらの場合でも、U(x, y)意味のあるユーティリティを考え出す必要があります。

GPA / ACTの問題についても、同じ一般的な重み付け/比較の概念が当てはまります。「標準化」ではなく「正規化」されていても。

最後の問題。あなたはこれが好きではないことを知っていますが、「付加的に独立した」という用語の定義は次のリンクの4ページにあります。オタクっぽくない定義を探しましたが、見つかりませんでした。より良いものを見つけるために周りを見回すかもしれません。

加算的に独立

リンクを引用:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

この応答の上部で提案されているように、標準化された列車の交通量と標準化された自動車の交通量をxyプロットでプロットすると、相関が見られる場合があります。もしそうなら、あなたは上記の非線形効用方程式または同様のもので立ち往生しています。


OK。あなたが正しい。私の定義を説明するのが最善です。もう一度考えてみると、必要な定義ではありません。必要なのは、1つのユニバーサルスコアを作成する適切な方法です。それが入場スコアかトラフィックスコアか。他の変数の関数であるユニバーサルメトリックを作成するにはどうすればよいでしょうか?そして、重みを心配しないでください。単純な合計でもメトリックに1/1の重みが付けられることを理解しています。しかし、それは今のところ私にとってそれほど心配ではありません。
クリス

@クリス、私の編集として上記の回答を追加しました。
-bill_080

2
(+1)良い編集。@クリス:あなたはここでPowerPointスライドの短いセットのノートに興味があるかもしれません:これは私が非技術者に与えた主題に関するプレゼンテーションです。「ユニバーサルメトリックを作成する」方法に関するいくつかの図とガイダンスがあるため、私はそれを言及します。
whuber

マルチ属性ユーティリティのリンクが死んでいる、記事はここで見つけることができますweb.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/...
mgilbert

6

答えは簡単ですが、あなたはそれを好きになるつもりはありません:それは依存します。両方のスコアから1つの標準偏差を等しく評価する場合、標準化を行ってください(注:実際、人口のSDの推定値で割っているので、学生化しています)。

そうでない場合は、標準化が適切な最初のステップになる可能性があります。その後、適切な係数を掛けることにより、スコアの1つにより多くの重みを与えることができます。


だから、少なくとも標準化(スチューデント化)として説明したものから始めて、データ/シナリオに最も合うように重みを調整しますか?それは理にかなっている。SDで割る理由がわかりません。そして、研究中に、標準化された平均差と呼ばれるものを見つけました。シンプルなはずです。両方をScale-Aに配置するか、一方を他方と同じスケールで配置してから合計します。しかし、違います。代わりに私は混乱しており、すべてのウィキは今のところ出ています。
クリス

0

GPA / ACTまたは電車/車の問題を解決するために、なぜGeometric Meanを使用しないのですか?

n√(a1×a2×...×an)

どこa*が分布からの値であり、分布nのインデックスです。

この幾何平均は、各値がそのスケールに反することを保証し、平均値に等しく貢献します。詳細については、幾何平均をご覧ください


3
OPが記述する状況に幾何平均が適切であるとは思わない。
GUNG

1
私はgungに同意します。幾何平均は、この問題の解決策ではありません。
フェルディ

幾何平均は、より小さい数の寄与の減少を防ぎます。したがって、不均等なスケールを組み合わせる必要がある場合は、標準化または正規化の代替手段になる可能性があります。
rnso

0

私の分野であるデータサイエンスでは、正規化はデータの変換であり、データを下流で簡単に比較できます。正規化には多くの種類があります。スケーリングはそれらの1つです。また、データをログに記録したり、他に必要なことを行ったりすることもできます。すべての正規化はデータを別のデータに変換するため、使用する正規化のタイプは希望する結果によって異なります。

ここで私が正規化の例と考えるもののいくつか。 スケーリングの 正規化分位点の正規化

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.