標準偏差の背後にある直感


26

私は標準偏差のより直感的な理解を得ようとしています。

私が理解していることから、それはそのデータセットの平均からのデータセットの一連の観測値の差の平均を表している。ただし、実際には、平均値から離れた観測値により大きな重みを与えるため、差の平均と等しくなりません。

Iは、値の次の集合を持っていると言う- {1,3,5,7,9}

平均はです。5

絶対値に基づいてスプレッドを測定すると、

i=15|xiμ|5=2.4

標準偏差を使用してスプレッドの測定を行うと、

i=15(xiμ)25=2.83

標準偏差を使用した結果は、平均から離れた値に余分な重みが与えられるため、予想どおり大きくなります。

しかし、私はちょうど私が、平均して人口を扱ったことが言われた場合はとの標準偏差2.83私が推測するだろう人口のような値が何かで構成されたことをどのように{ 1 3 5 7 9 }2.83の数字は非常にarbitrary 的であるように思えます...あなたがそれをどのように解釈すべきかわかりません。2.83は、値が非常に広い範囲に広がっていることを意味しますか?52.83{1,3,5,7,9}2.832.83

平均がで標準偏差が2.83の母集団を扱っているというステートメントが表示されたら、母集団について何がわかりますか?52.83


2
この質問はstats.stackexchange.com/q/81986/3277およびそれにリンクされている別の質問に関連しています(同一ではありませんが)。
ttnphns 14

1
平均からの「典型的な」距離(RMS距離)を示します。「大」または「小」になるのは基準によって異なります。エンジニアリングの許容値を測定しようとしている場合、それは非常に大きい可能性があります。他の状況では、同じ標準偏差は非常に小さいと見なされる場合があります。
-Glen_b-モニカーの復活2014

回答:


13

私の直感では、標準偏差は次のとおりです。データの広がりの尺度。

幅が広いか狭いかは、データの分布に関する基本的な前提に依存するという良い点があります。

注意:スプレッドの測定は、データの分布が平均に関して対称であり、正規分布の分散に比較的近い分散を持つ場合に最も役立ちます。(これは、ほぼ正常であることを意味します。)

データがほぼ標準の場合、標準偏差には標準的な解釈があります。

  • 地域:サンプル平均+/- 1標準偏差、データの約68%を含む
  • 地域:サンプル平均+/- 2標準偏差、データの約95%を含む
  • 地域:サンプル平均+/- 3標準偏差、データの約99%を含む

Wikiの最初のグラフィックを参照)

これは、母平均が5であり、標準偏差が2.83で、分布がほぼ正規であると想定している場合、(非常に)多くの観測を行うと、5%だけが合理的に確信することを意味します0.4 = 5-2 * 2.3より小さいか、9.6 = 5 + 2 * 2.3より大きい。

信頼区間に対する標準偏差の影響に注目してください。(広がりが大きいほど不確実性が高い)

α

  • α

αα=2

私はあなたがそれをどのように解釈すべきかわかりません。2.83は、値が非常に広い範囲に広がっていることを意味しますか?

私は、「広くまたはきつい」と尋ねるすべての質問には、「何に関連して」も含まれるべきだと思います。1つの提案は、よく知られた分布を参照として使用することです。コンテキストに応じて、「ノーマル/ポアソンよりも幅が広いのか、それとも狭いのか」を考えると便利かもしれません。

編集:コメントの有用なヒント、距離測定としての標準偏差に関するもう1つの側面に基づきます。

sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

比較として、統計で最も一般的なエラー測定値の1つである平均二乗誤差(MSE)は、次のように定義されます。

MSE=1ni=1n(Yi^Yi)2

上記の距離関数がなぜ機能するのかという疑問を提起することができますか?なぜ絶対距離ではなく、二乗距離なのか?そして、なぜ私たちは平方根を取るのですか?

二次距離、つまり誤差があると、関数を区別し、簡単に最小化できるという利点があります。平方根に関する限り、エラーを観測データのスケールに変換するため、解釈可能性に追加されます。


データが正常なときに、スプレッドの測定値が最も「役立つ」と言うのはなぜですか?データのセットにはスプレッドがあり、標準偏差はスプレッドの形状をキャプチャしなくてもスプレッドの要約であるように思えます。
マイケルルー14

確かに、あなたは正しいです。しかし、標準偏差が何らかの形で分布の形状に依存することを主張していませんでした。形状についてある程度の知識がある場合(またはこの仮定を立てる準備ができている場合)、通常ははるかに役立つ情報であることを指摘してください。同様に、分布について特定の一般的な仮定を立てることができる場合、サンプル平均はデータの適切な記述子です。
意味する意味

絶対値の代わりに平方を使用する私のお気に入りの理由は、それが何らかのガウスの確率の対数であることです。したがって、エラーが本質的にガウス分布であり、そのビットが情報の測定に適していると考えている場合は、二乗誤差を使用するのが理にかなっています。
qbolec

5

平均が重心に類似していることを理解するのを助けるかもしれません。分散は慣性モーメントです。標準偏差は、回転半径です。

歴史的な観点については、以下をご覧ください。

ジョージ・エアリー(1875)観測の誤差および観測の組み合わせの代数的および数値的理論について

Karl Pearson(1894)進化の数学理論への貢献。

Airy 1875のこのプロットは、容易に相互変換できる偏差のさまざまな測定値を示しています(17ページ)。標準偏差は「平均二乗誤差」と呼ばれます。20〜21ページについても説明し、48ページでその使用を正当化し、負と正の誤差を別々に計算する必要がないため、手で計算するのが最も簡単であることを示します。標準偏差という用語は、上記の75ページの論文でピアソンによって導入されました。

ここに画像の説明を入力してください

余談ですが、標準偏差の有用性は、「非常に多くの独立したエラーの原因」(エアリー1875 pg 7)。各個人のグループ平均からの逸脱がこの法律に従うべきだと期待する理由はありません。生物学的システムの多くの場合、対数正規分布は正規よりも優れた仮定です。見る:

Limpert et al(2001)科学全体の対数正規分布:鍵と手がかり

データ生成プロセスはグループではなく個人のレベルで動作するため、個人の変動をノイズとして扱うことが適切かどうかはさらに疑問です。


3

実際、標準偏差は、距離の平均の平方根であるため、平均から遠く離れた人に大きな重みを与えます。これを使用する理由(提案する平均絶対偏差、またはロバスト統計で使用される絶対偏差の中央値ではなく)は、絶対値よりも多項式の方が計算が容易なためです。ただし、多くの場合、極端な値を強調する必要があります。

直感的な意味についてのあなたの質問について-それは時間とともに発展します。複数の数値セットが同じ平均値とsdを持つことができるのは正しいです。これは、平均値とsdが2つの情報にすぎず、データセットが5つ(1、3、5、7、9など)以上になる可能性があるためです。

平均5と2.83のsdが「広い」か「狭い」かは、作業しているフィールドによって異なります。

数字が5つしかない場合は、完全なリストを簡単に確認できます。多数の数字がある場合、スプレッドについてのより直感的な考え方には、5つの数字の要約、さらには密度プロットなどのグラフが含まれます。


2

標準偏差は、平均からの母集団の距離をランダム変数として測定します。

X:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

関数に移動して理論を測定する理由は、発生する可能性がゼロのイベントまで2つの確率空間がどのように同じであるかを議論する体系的な方法が必要だからです。関数に移動したので、距離感が必要です。

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

5_t5

d2


[0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15

はい、リストしたランダム変数は、測定理論に慣れている人にとっては標準です。私は、微積分学のバックグラウンドを持つ人々のために機能と統合を理解するためにそれを絞りたいと思っていました。関数として平均を書き直します。
SomeEE 14

d2

L2d2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.