標準偏差とは何ですか、どのように計算され、統計でどのように使用されますか?
標準偏差とは何ですか、どのように計算され、統計でどのように使用されますか?
回答:
標準偏差は、一連のデータの「広がり」または「分散」を表す数値です。範囲や分散など、スプレッドには他の指標もあります。
以下に、データセットの例とその標準偏差を示します。
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
上記のデータセットの平均は同じです。
偏差とは、「平均からの距離」を意味します。
ここでの「標準」とは「標準化」を意味し、分散とは異なり、標準偏差と平均が同じ単位であることを意味します。
たとえば、平均高さが2 メートルの場合、標準偏差は0.3 メートルになる可能性がありますが、分散は0.09 メートル平方になります。
データポイントの少なくとも75%が常に平均の2標準偏差内にあることを知っておくと便利です(分布が正規の場合は約95%)。
たとえば、平均が100で、標準偏差が15の場合、値の少なくとも75%は70〜130です。
分布がたまたま正規分布である場合、値の95%は70〜130です。
一般的に、IQテストのスコアは通常分布し、平均は100です。「非常に明るい」人は、平均を2標準偏差上回っており、IQテストのスコアは130です。
変数を説明するとき、通常、2つの測定値を使用して要約します:中心の測定値と広がりの測定値。中心の一般的な尺度には、平均、中央値、モードが含まれます。一般的な広がりの尺度には、分散と四分位範囲が含まれます。
平均が報告される場合、分散(ギリシャの小文字のシグマの2乗)が一般的に使用されます。分散は、変数の平均平方偏差です。偏差は、各観測値から平均値を引くことで計算されます。これは、そうでなければ和がゼロになり、偏差の相対サイズを維持しながら二乗することでこの問題が除去されるため、二乗されます。ばらつきを広がりの尺度として使用する場合の問題は、それが平方単位であることです。たとえば、対象の変数がインチ単位で測定された高さである場合、分散はほとんど意味のない平方インチで報告されます。標準偏差(ギリシャ語の小文字シグマで表される)は、分散の平方根であり、スプレッドの測定値を元の単位に返します。
標準偏差を使用する場合、それらはスプレッドの耐性測定ではないため、標準偏差(および平均)をゆがめるため、外れ値に注意する必要があります。簡単な例でこのプロパティを説明します。13、14、16、23、26、28、33、39、および61の私のひどいクリケットバッティングスコアの平均は28.11です。61を外れ値と見なして削除した場合、平均は24になります。
図を使用してこの質問に答える方法を次に示します。
30匹の猫の体重を量り、平均体重を計算するとします。次に、y軸に重み、x軸に猫の同一性を持つ散布図を作成します。平均重量は水平線で描くことができます。次に、各データポイントを平均線に接続する垂直線を描画できます。これらは平均からの各データポイントの偏差であり、それらを残差と呼びます。さて、これらの残差は、データの広がりについて何かを教えてくれるので便利です。多くの大きな残差がある場合、猫は質量が大きく異なります。逆に、残差が主に小さい場合、猫は平均体重の周りにかなり密集しています。そのため、平均このデータセット内の残差の長さ、これは、データ内にどれだけの広がりがあるかを示す便利な方法です。標準偏差は、事実上、平均残差の長さです。
これに続いて、sdの計算を行い、平方根と平方根の理由を説明します(Vaihavの短くて甘い説明が好きです)。それから、グラハムが彼の最後の段落でしたように、外れ値の問題に言及します。
必要な情報が平均に関するデータの分布である場合、標準偏差が役立ちます。
平均値からの各値の差の合計はゼロです(値は平均値の周りに均等に分散しているため、明らかに)平方根。この値は、サンプルの数(または母集団のサイズ)で除算されます。これにより、標準偏差が得られます。
標準偏差は、分布の2番目の中心モーメントの平方根です。中心モーメントは、分布の期待値との予想される差です。通常、最初の中心モーメントは0であるため、2番目の中心モーメントは、期待値からのランダム変数の距離の2乗の期待値として定義します。
元の観測値により近いスケールにそれを置くために、その2番目の中心モーメントの平方根を取り、それを標準偏差と呼びます。
標準偏差は母集団の特性です。それは、その母集団にどれだけ平均的な「分散」があるかを測定します。すべてのオブスレーションは平均を中心に集中していますか、それとも広く分散していますか?
母集団の標準偏差を推定するために、その母集団からの「サンプル」の標準偏差を計算することがよくあります。これを行うには、その母集団から観測値を取得し、それらの観測値の平均を計算してから、その「サンプル平均」からの平均平方偏差の平方根を計算します。
分散の不偏推定量を取得するには、サンプル平均からの平均二乗偏差を実際に計算するのではなく、代わりに(N-1)で除算します。ここで、Nはサンプルの観測数です。この「サンプル標準偏差」は標準偏差の不偏推定量ではなく、「サンプル標準偏差」の二乗は母集団の分散の不偏推定量であることに注意してください。
私が標準偏差を理解した最良の方法は、美容師について考えることです!(この例が機能するには、ヘアドレッサーからデータを収集し、ヘアカット速度を平均化する必要があります。)
美容師が人の髪を切るのに平均30分かかります。
計算を実行すると(ほとんどのソフトウェアパッケージがこれを実行します)、標準偏差は5分であることがわかります。以下を意味します。
これをどうやって知るのですか?68%が1標準偏差内に収まり、96%が平均の2標準偏差内に収まる正規曲線を見る必要があります(この場合は30分)。したがって、平均から標準偏差を加算または減算します。
この場合のように一貫性が必要な場合は、標準偏差が小さいほど優れています。この場合、ヘアドレッサーは、特定のクライアントと最大約40分を費やします。サロンを成功させるには、髪を速く切る必要があります!