標準偏差がNの平方和のsqrtとしてではなく、分散のsqrtとして定義されるのはなぜですか?


16

今日、私は統計の入門クラスを教え、学生が質問を思いついた。ここで、「なぜ標準偏差はN上の平方和の平方ではなく分散の平方として定義されるのか」と言い換える。

母分散を定義します:σ2=1N(xiμ)2

標準偏差:。σ=σ2=1N(xiμ)2

与えられる解釈は、母平均から母集団の単位の平均偏差を与えるということです。σX

ただし、sdの定義では、平方和のを除算します。学生が提起する問題は、なぜ二乗和の面積をで割らないのかということです。したがって、競合する式になります:学生は、この式はように除算する場合よりも、平均からの「平均」偏差のように見えると主張しました。NN

σnew=1N(xiμ)2.
Nσ

この質問は愚かではないと思いました。私は、sdが平均平方偏差である分散のsqrtとして定義されていると言うよりも先に進む学生に答えたいと思います。別の言い方をすれば、なぜ生徒は正しい式を使用し、自分の考えに従わないのですか?

この質問は、ここで提供される古いスレッドと回答に関連しています。答えは3つの方向にあります。

  1. σは二乗平均平方根(RMS)偏差であり、平均からの「典型的な」偏差ではありません(つまり、)。したがって、定義が異なります。σnew
  2. 数学的な特性があります。
  3. さらに、sqrtは「ユニット」を元のスケールに戻します。ただし、これは場合でもあり、代わりにで除算されます。σnewN

ポイント1と2の両方は、RMSとしてsdを支持する引数ですが、使用に反対する引数はません。入門レベルの学生に平均からの平均RMS距離使用を説得する良い議論は何でしょうか?σnewσ


2
「なぜ標準偏差を...と定義するのか」という質問には答えが難しいと思います。定義は単なる任意のラベル付け規則です。彼らはなぜに準拠する必要はありません。
ttnphns 14

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"括弧内にあるものが質問で何らかの形で失われたのでしょうか?
ttnphns 14

1
ただし、sdは一連の目的を果たします。そのように定義されているよりも、より良い動機がなければなりません。これは、特に学部生を教えるのに役立ちます。チェビシェフの不平等という意味での動機付けを想像できます(+/- sdの定数因子の領域のケースの割合の最小値)。
トムカ14

2
Qが保留になっているので答えられませんが、これを試してください:値1と3がほぼ等しい割合で観測されると想像してください(コインを投げる、、)。平均からの観測の「典型的な距離は、」あなたの1.のようなものでなければなりませんのための典型的な距離のこの措置に何が起こるかを検討し、式非常に、非常に大きいです。いずれの場合もは1に近いため、それらの平方和はに近くなります。分子は近いため、平均からの典型的な距離は変化していませんが、が増加するにつれて数式は小さくなります。、T = 1 H=3T=1n| XI- ˉ X | nはSSE/nn|xix¯|n nnn
Glen_b -Reinstate Monica 14

1
@whuber私は別の更新を行いましたが、私が指摘するポイントがより明確になることを願っています。注ここで、統計の基金に関する質問をすることに加えて、ここでアドバイスを求めています。私は代替式を提案していませんが、すぐに答えが得られなかった生徒による良い質問の教室の状況から例を示しました。同意いただければ、質問を今すぐ保留から解除してください。
トムカ14

回答:


12

初心者にはすぐに説明できる少なくとも3つの基本的な問題があります。

  1. 「新しい」SDは、無限の母集団に対しても定義されていません。(このような場合、常にゼロに等しいと宣言することもできますが、それはそれ以上有用ではありません。)

  2. 新しいSDは、ランダムサンプリングで平均が行うべき動作をしません。

  3. 新しいSD 、すべての数学的厳密性とともに使用して(サンプルおよび有限母集団の)平均からの偏差を評価できますが、その解釈は不必要に複雑です。

1.新しいSDの適用範囲は限られています

ポイント(1)は、分散が明らかに算術平均(偏差の2乗)であるため、「無限」母集団のモデルへの有用な拡張があることを指摘することで、統合に精通していない人にも持ち帰ることができます。算術平均の存在の直観はまだ当てはまります。したがって、その平方根(通常のSD)は、このような場合でも完全に明確に定義されており、分散の(非線形の再表現)と同じ役割を果たします。ただし、新しいSDはその平均を任意の大きなで除算し、有限の母集団と有限のサンプルを超えた一般化に問題をます。 1/N1/N

2.新しいSDは平均ではありません

「平均」という名前にふさわしい統計には、母集団からのランダムサンプルのサイズが大きくなるにつれて、母集団の値に収束する特性が必要です。任意の固定乗算器はサンプルSDと人口SDの計算の両方に適用されるので、SDの倍数は、この性質を持っているでしょう。(直接Alecosパパドプロスによって提供される引数と矛盾していないが、この観察は、その引数が真の問題にだけ接線方向であることを示唆している。)が、「新しい」SDを、に等しい回の通常のもの、明らかにサンプルサイズが大きく、すべての状況でに収束し。したがって、任意の固定サンプルサイズ 0NN1/N0NN新しいSD(適切に解釈された)は、平均の周りの変動の完全に適切な尺度であり、すべてのサンプルサイズに対して同じ解釈で適用可能な普遍的な尺度と正当に見なすことはできません。有用な感覚。

3.新しいSDは解釈と使用が複雑です

(たとえば)サイズサンプルを取ることを検討してください。これらの場合の新しいSDは、通常のSDの倍です。したがって、(データの約68%が内にある必要があり、このような68-95-99ルールのアナログとして同等の解釈を楽しむ2内の平均の新しいSDS、それらの95%4枚の平均の新規のSD など。そして、チェビシェフのような古典的な不等式のバージョンが保持されます(データのは、平均から超える新しいSDを超えることはできません);中央極限定理は、新しいSDに関して同様に言い換えることができます(割り1 / N=41/K22K1/N=1/21/k22kN変数を標準化するために、新しいSDを倍します)。したがって、この具体的かつ明確に制約された意味で、学生の提案には何も問題はありません。ただし、困難なのは、これらのステートメントにすべて、明示的に要素が含まれていることです。これに固有の数学的問題はありませんが、統計の最も基本的な法則の記述と解釈を確かに複雑にします。N=2


ガウスおよびその他のユーザーは、元々によってガウス分布をパラメーター化し、SDの倍を使用して正規確率変数の広がりを定量化したことに注意してください。この歴史的な使用は、代わりにSDの他の固定倍数を使用することの妥当性と有効性を示しています。2σ2


ありがとう- (あなたのポイント2に関連する)一つの質問バック:んに収束していないと大きくなるのに対し、明らかでしょうか? 0N11N0N1N
トムカ

2
サンプルのSDをサンプルのSDの倍(「新しいSD」)と比較しています。大きくなる、試料のSDは、(通常は)非ゼロに近づく定数集団SDに等しいです。したがって、サンプルSDの倍がゼロに収束します。 N1/1/NN1/N
whuber

これは標準的な資料です。数学統計の厳密な教科書(公正なことに、ほとんどの初心者はアクセスできません)を参照してください。しかし、私の答えにとって重要な結果は、より弱くて直感的に明らかな声明に基づいています。数値を修正し、母集団SDとします。サンプルSDがと間にある可能性を考慮してください。サンプルサイズが増加すると、このチャンスはゼロになります。これだけでも、サンプルSDの倍がほぼ確実に収束し、答えのポイント(2)を示しています。σ σ / A A σ N 1 / A>1σσ/AAσN 01/N0
whuber

+1、さらにスケール不変などではありません(この形式の瞬間に必要な条件)
ニコスM. 14

@Nikosありがとうございますが、スケール不変ではないものは何ですか?データが再スケーリングされると、と両方が変化します。 SDSD/NSD
whuber

5

サンプルには2つの実現しか含まれていないと仮定します。分散の直感的な尺度は、平均絶対偏差(AAD)になると思います

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

したがって、同じレベルの測定単位で他の分散の測定値を上記の「近く」にしたいでしょう。

サンプル分散は次のように定義されます

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

元の測定単位に戻るために、学生が不思議に思う/示唆したようにした場合、測定値を取得し、qと呼びますq

q12|x1x2|22=12|x1x2|2=12AAD<AAD

つまり、定義の標準偏差を考慮した場合、分散の「直感的な」尺度を「軽視」することになります。

SDσ2=|x1x2|2=AAD

直感的な尺度に「できるだけ近づけ」たいので、を使用する必要があります。SD

補遺
てみましょうが、今のサイズのサンプルを考える我々は持っていますn

nAAD=i=1n|xix¯|

そして

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

分散式の右辺を次のように書くことができます

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

分散測定は次のようになりますqn

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

ここで非公式に考えてください:項が含まれているため、割ると「2乗の1項」になります。しかし、「2乗の1項」もます。これは、が大きくなるとがゼロになる傾向を「感知する」原始的な方法です。一方、定義された標準偏差はji|xix¯||xjx¯|n2nn2AAD2qnn

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

継続は非公式の考え方であり、最初の用語は「2乗の項」を与え、2番目の用語は「2乗の項」を与えます。したがって、が大きくなるにつれて、最終的にそのような用語が1つ残され、その後、その平方根を取ります。 この定義されたように標準偏差という意味ではなく、一般的に平均絶対偏差に等しくなる(これはない)、それは、それが適切任意にとってと「同等の」するように定義されていることを示していように、場合も同様です。n 1 n n n nn1n
nn


1
この答えは興味深いものですが、もっと重要で説得力のある、厳密な説明があると思います(私自身の答えではごく一部しか提供していません:特に中央極限定理におけるSDの役割に関しては、もっと言えます)および独立したランダム変数の合計のSDを計算するための代数規則)。
whuber

2
@whuber確かに。生徒の休憩時間を破壊するために、「ベルが鳴る」アプローチを選択しました!
アレコスパパドプロ14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.