標準化(標準偏差で除算)の背後にある理由は何ですか?


8

データセットをシグマで除算すると、標本分散が1になるのはなぜですか?単純化のためにゼロ平均を仮定します。

この背後にある直感は何ですか?

範囲(最大-最小)で除算すると、直感的に理解できます。しかし、標準偏差はそうではありません。


1
ゼロ平均の仮定は必要ありません。これは3つの独立したステートメントと見なすことができます。SDで割ると、SDは1になります。分散はSDの2乗です。そして1の正方形は1です
ニック・コックス

1
人々が直感的に言うとき、私はそれを「私に馴染みがある」と翻訳します、そしてほとんどの場合それは合います。範囲で除算しない理由は、理論的ではなく実際的です。範囲は非常に不安定です。また、多くの場合、すべての値の範囲は値の大部分の範囲よりも非常に大きいため、結果はあまり役に立ちません。利益は、両方のポイントを示す:観察された最大の気まぐれ変化し得る範囲で割った値は、しばしば0付近に集中されるであろう
ニックコックス

回答:


17

これは、分散の性質から生じます。確率変数と定数場合、です。したがって、データを標準偏差()で除算すると、。Xavar(aX)=a2var(x)σvar(X/σ)=var(X)/σ2=σ2/σ2=1


1
感謝します。直感的なアプローチはありますか?
好奇心旺盛な

8

標準化とは、単位を「標準偏差」単位に変更することです。標準化後の値1.5は、「0を超える1.5標準偏差」を意味します。標準偏差が8の場合、これは「0から12ポイント上」と言うことと同じです。

例:(アメリカで)インチをフィートに変換する場合、データをインチ単位で変換係数で乗算します。これは、1フィートが12インチであることから、基本的には、データポイントに1のファンシーバージョン(つまり、分子と分母が等しい分数)を乗算するだけです。たとえば、72インチからフィートに移動するには、ます。1foot12ches72ches×1foot12ches=6feet

生の単位から標準偏差の単位にスコアを変換するときは、生の単位のデータに変換係数を掛けます。したがって、スコアが100で標準偏差()が20の場合、標準化されたスコアはます。標準化は単位を変えるだけです。1sdσpotsσ100pots×1sd20pots=5sd

データセットの単位を変更しても、データセットの広がりには影響しません。使用しているスプレッドの測定単位を変更して、一致するようにします。したがって、元のデータの標準偏差が20ポイントであり、20の元のポイントが1つの新しい標準化された単位に等しくなるように単位を変更した場合、新しい標準偏差は1ユニットになります(元の20の単位は1つの新しい単位に等しいため)。


2
一部の回答では、平均を差し引いたという追加の仮定が必要ですが、それについては言及していません。統計では平均を引くことがデフォルトであるので、スレッドの質問もここではあいまいですが、SDで割ることについてのみ尋ねます。
Nick Cox

SDで除算するだけで標準化を定義している場合(OPが行うように)、私の回答がその仮定を必要とするとは思わない。私は、データの中心を参照するのではなく、単位の変更について話しているだけです。たとえば、平均が50でSDが10のスケールの場合、20のスコアは-3ではなく2の標準化されたスコアを持つことになります。平均を差し引くこと(中心化)は別の問題です。
ノア

フェアポイント。SDで除算するだけで標準化を定義することは、いわば標準であるとは考えていませんが、その値/ SD定義すると、正のデータポイントはすべて、標準化された上で0を上回ります。スケールと負のことが起こる点のみで0以下であるスケール。それが(値平均)/ SD と同じくらい有用な標準化であるかどうかは疑問です。=:zzz
Nick Cox

OPは質問で平均がゼロであるという仮定に言及している
Soroush
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.