標準偏差とは何ですか?


31

標準偏差とは何ですか、どのように計算され、統計でどのように使用されますか?


7
このサイトの目的は、6年生の質問に答えることではないと思います。そして、私の子供は、そのような質問に直面したとき、答えをグーグルで検索します。定義の特定の部分がわからない場合は、尋ねてください。しかし、このような基本的なトピックに関する焦点のない質問は、ポスターが答えを見つけようとさえしなかったことを(とにかく私に)示しています。次は何になるのか「数字とは何か、どのように使用されるのか」
PeterR

9
この質問は大丈夫だと思います。実際、それはエリア51のトピック質問に関する最も支持された例でした。基本はここで大丈夫です!
ピータースミット

6
同意した、それは有効な質問です。また、使用例と計算方法を尋ねるので、明確に述べられています。確かにこのサイトの目的は、統計的なすべての質問のリポジトリを作成することです。
ジョエル

5
私はジョエルに同意します。標準偏差は統計の重要な概念です。あなたが統計的な質問をすることに関してサイトでそれについて質問することができなかったら、それはばかげたことではないでしょうか。
パーベリー

4
前世の高校教師として、私はばかげた質問はないと言います。質問に価値のないものとラベル付けした瞬間、最も強力な学習方法を奪う瞬間、つまり質問をしている瞬間!(以下でこの質問に答えるつもりです。)
ジョシュ

回答:


30

標準偏差は、一連のデータの「広がり」または「分散」を表す数値です。範囲や分散など、スプレッドには他の指標もあります。

以下に、データセットの例とその標準偏差を示します。

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

上記のデータセットの平均は同じです。

偏差とは、「平均からの距離」を意味します。

ここでの「標準」とは「標準化」を意味し、分散とは異なり、標準偏差と平均が同じ単位であることを意味します。

たとえば、平均高さが2 メートルの場合、標準偏差は0.3 メートルになる可能性がありますが、分散は0.09 メートル平方になります。

データポイントの少なくとも75%常に平均の2標準偏差内にあることを知っておくと便利です(分布が正規の場合は約95%)。

たとえば、平均が100で、標準偏差が15の場合、値の少なくとも75%は70〜130です。

分布がたまたま正規分布である場合、値の95%は70〜130です。

一般的に、IQテストのスコアは通常分布し、平均は100です。「非常に明るい」人は、平均を2標準偏差上回っており、IQテストのスコアは130です。


ニール、あなたの答えに感謝します。「標準偏差」という用語の「標準」という部分について詳しく説明してください。適切な場合は、「平均の標準誤差」という用語で同じ「標準」に触れてください。前もって感謝します。
スタン

最近の編集について:SDはどのような意味で「標準化」されていますか?通常、これは標準化の基礎になりますが、それ自体は標準化されません(サンプリングの変動の推定値によって再スケーリングするなど)。
whuber

平均値と同じ単位にする標準化されている
ニール・マクギガン

平均高さが2メートルの例は、小数の使用に注意する必要がある良い例です。同じ例は、30センチメートルの標準偏差が900センチメートルの分散から論理的に導出されるセンチメートルで実行できます。
ロバートジョーンズ

私の印象では、それらは主要な測定単位では避けるべきです。デシメートル、センチメートル、ミリメートルに変換されたメートル単位の0.133のSDの結果を考えてみましょう。誰でも解明してくれませんか?
ロバートジョーンズ

9

ウィキペディアからの引用。

これは、「平均」(平均値、または期待値/予算値)からどれだけ変動があるかを示しています。標準偏差が低い場合は、データポイントが平均値に非常に近い傾向があることを示し、標準偏差が高い場合は、データが広範囲の値に分散していることを示します。


5

変数を説明するとき、通常、2つの測定値を使用して要約します:中心の測定値と広がりの測定値。中心の一般的な尺度には、平均、中央値、モードが含まれます。一般的な広がりの尺度には、分散と四分位範囲が含まれます。

平均が報告される場合、分散(ギリシャの小文字のシグマの2乗)が一般的に使用されます。分散は、変数の平均平方偏差です。偏差は、各観測値から平均値を引くことで計算されます。これは、そうでなければ和がゼロになり、偏差の相対サイズを維持しながら二乗することでこの問題が除去されるため、二乗されます。ばらつきを広がりの尺度として使用する場合の問題は、それが平方単位であることです。たとえば、対象の変数がインチ単位で測定された高さである場合、分散はほとんど意味のない平方インチで報告されます。標準偏差(ギリシャ語の小文字シグマで表される)は、分散の平方根であり、スプレッドの測定値を元の単位に返します。

標準偏差を使用する場合、それらはスプレッドの耐性測定ではないため、標準偏差(および平均)をゆがめるため、外れ値に注意する必要があります。簡単な例でこのプロパティを説明します。13、14、16、23、26、28、33、39、および61の私のひどいクリケットバッティングスコアの平均は28.11です。61を外れ値と見なして削除した場合、平均は24になります。


1
グラハム、あなたの答えにタイプミスがあるのではないかと思います。分散は、2の累乗で表されるギリシャ語の小文字シグマで表されます(つまり、σ2)、標準偏差はその平方根、または指数なしの単なるシグマです(つまり、 σ)。回答を編集することもできます。
GUNG -復活モニカ

2

図を使用してこの質問に答える方法を次に示します。

30匹の猫の体重を量り、平均体重を計算するとします。次に、y軸に重み、x軸に猫の同一性を持つ散布図を作成します。平均重量は水平線で描くことができます。次に、各データポイントを平均線に接続する垂直線を描画できます。これらは平均からの各データポイントの偏差であり、それらを残差と呼びます。さて、これらの残差は、データの広がりについて何かを教えてくれるので便利です。多くの大きな残差がある場合、猫は質量が大きく異なります。逆に、残差が主に小さい場合、猫は平均体重の周りにかなり密集しています。そのため、平均このデータセット内の残差の長さ、これは、データ内にどれだけの広がりがあるかを示す便利な方法です。標準偏差は、事実上、平均残差の長さです。

これに続いて、sdの計算を行い、平方根と平方根の理由を説明します(Vaihavの短くて甘い説明が好きです)。それから、グラハムが彼の最後の段落でしたように、外れ値の問題に言及します。


1

必要な情報が平均に関するデータの分布である場合、標準偏差が役立ちます。

平均値からの各値の差の合計はゼロです(値は平均値の周りに均等に分散しているため、明らかに)平方根。この値は、サンプルの数(または母集団のサイズ)で除算されます。これにより、標準偏差が得られます。


「したがって、それぞれの差を二乗します。...」絶対値を取り、負の値も取り除くことができます。では、最後に平方根を取得する必要があるので、なぜより良い方法を二乗するのでしょうか?偏差の絶対値を単に合計しないのはなぜですか?
ディリップサルワテ

これを見た?リンク
ヴァイバフガーグ

はい、前にそのリンクを見ました。持っていた?私は二乗を学んだので、二乗が使用される理由を完全に理解しています45数年前。私は尋問されたあなたの言葉の権威を使用するので、あなたは二乗和ではなく絶対値の和を使用している理由を正当化する理由を知っていたという兆候なしであなたのフレーズで。
ディリップサーワテ

1
@DilipSarwate、すべての敬意を持って、権限による証明は私を感動させません。「それゆえ」が「権威ある」という仮定は、私がむしろ無視したい「ストローマン」です。特定の文の詳細レベルは、特定のコンテキストにおけるその傾斜および/または教育的意義と釣り合っています。「標準偏差とは何ですか、それはどうである…」と尋ねている人がいると思います。同じものの厳密な数学的定義に煩わされることを望まないかもしれません。単純化は意図的なものであり、気づかないことの結果ではなく、保証します。
ヴァイバフガルグ

1
そして、あなたに感銘を与えない権威による証明以外に、何が、そう言うのですか?あなたの「それゆえ」が暗示するように、二乗が自動的に問題の解決であるという論理的な理由はありません。
ディリップサーワテ

1

私はそれを次のように考えるのが好きです:標準偏差は平均からの平均距離です。これは数学的に有用であるよりも概念的に有用ですが、初心者に説明するのに良い方法です。


0

標準偏差は、分布の2番目の中心モーメントの平方根です。中心モーメントは、分布の期待値との予想される差です。通常、最初の中心モーメントは0であるため、2番目の中心モーメントは、期待値からのランダム変数の距離の2乗の期待値として定義します。

元の観測値により近いスケールにそれを置くために、その2番目の中心モーメントの平方根を取り、それを標準偏差と呼びます。

標準偏差は母集団の特性です。それは、その母集団にどれだけ平均的な「分散」があるかを測定します。すべてのオブスレーションは平均を中心に集中していますか、それとも広く分散していますか?

母集団の標準偏差を推定するために、その母集団からの「サンプル」の標準偏差を計算することがよくあります。これを行うには、その母集団から観測値を取得し、それらの観測値の平均を計算してから、その「サンプル平均」からの平均平方偏差の平方根を計算します。

分散の不偏推定量を取得するには、サンプル平均からの平均二乗偏差を実際に計算するのではなく、代わりに(N-1)で除算します。ここで、Nはサンプルの観測数です。この「サンプル標準偏差」は標準偏差の不偏推定量ではなく、「サンプル標準偏差」の二乗は母集団の分散の不偏推定量であることに注意してください。


6
これは非常に不明確な応答です。英語で書いてみてください。
ニール

1
多分そう。この質問をする人は、通りから歩いて入った人、または少なくとも統計書を開いた人です。標準偏差が分散の平方根にすぎないことを誰かに伝えることは、完全に疑問を投げかけています。
バルティマーク

-1

私が標準偏差を理解した最良の方法は、美容師について考えることです!(この例が機能するには、ヘアドレッサーからデータを収集し、ヘアカット速度を平均化する必要があります。)

美容師が人の髪を切るのに平均30分かかります。

計算を実行すると(ほとんどのソフトウェアパッケージがこれを実行します)、標準偏差は5分であることがわかります。以下を意味します。

  • ヘアドレッサーはクライアントの68%の髪を25分と35分以内にカットします
  • 美容師は20〜40分以内に顧客の96%の髪をカットします。

これをどうやって知るのですか?68%が1標準偏差内に収まり、96%が平均の2標準偏差内に収まる正規曲線を見る必要があります(この場合は30分)。したがって、平均から標準偏差を加算または減算します。

この場合のように一貫性が必要な場合は、標準偏差が小さいほど優れています。この場合、ヘアドレッサーは、特定のクライアントと最大約40分を費やします。サロンを成功させるには、髪を速く切る必要があります!


Adhesh、答えを校正するとは思わない。ここには矛盾した情報があります。編集内容に同意するかどうかを確認してください。
rolando2

1
正規分布の場合の標準偏差の解釈のみを説明しました。「68%ルール」および(および95%ルール)は、正規分布データにのみ適用されます。少なくとも、2つの箇条書きは、ヘアカット時間が正規分布に従っている場合にのみ真であると述べてください。
マクロ

マクロ、正規曲線について言及しましたが、正規曲線を使用する場合、データは正規分布に従うことは当然です。
アデッシュジョシュ

@ rolando2 Adheshの説明の何が間違っているのか理解できないようです。
アマラルド

@Amarald-「Jan 31 at 1:06」をクリックして、編集前後のバージョンを確認しましたか?マクロも重要なポイントですが、答えは後で強くなると思います。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.