標準誤差と標準偏差の違い


96

標準誤差と標準偏差の違いを理解するのに苦労しています。それらはどのように異なり、なぜ標準誤差を測定する必要があるのですか?


7
2つの有用なものが既に存在するため、回答ではなく、簡単なコメント:標準偏差は、ランダム変数(の分布)のプロパティです。代わりに、標準誤差は特定のサンプルの測定に関連しています。宇宙とサンプルの区別を曖昧にすると、この2つは混乱する可能性があります。
フランチェスコ

回答:


31

質問への答えを完成させるために、Ocramは標準誤差にうまく対処しましたが、標準偏差とは対照的でなく、サンプルサイズへの依存については言及しませんでした。推定器の特殊なケースとして、サンプル平均を考慮してください。平均の標準誤差はここで σσ/nσ母標準偏差です。したがって、この例では、サンプルサイズの増加に伴い標準誤差がどのように減少するかを明示的に確認できます。標準偏差は、個々の観測値を参照するために最もよく使用されます。したがって、標準偏差は個々の観測値のばらつきを表し、標準誤差は推定量のばらつきを表します。良い推定量は一貫しており、つまり、真のパラメーター値に収束します。サンプルサイズが増加して標準誤差が0に減少すると、推定値は一貫します。これは、サンプル平均で明示的に見られるように標準誤差が0になるため、ほとんどの場合に起こります。


3
Re: "...一貫性があるため、標準エラーが0に減少します"-それは正しくありません。この議論を覚えていますか:stats.stackexchange.com/questions/31036/…
マクロ

1
ええ、もちろん、私は異常な例外の議論を覚えており、質問に答えたときにそれについて考えていました。しかし、問題は標準誤差に関するものであり、単純な用語では、良好なパラメーター推定値は一貫しており、サンプル平均の場合のように標準誤差は0になります。
マイケルチャーニック

4
あなたのコメントに同意します-サンプル平均の標準誤差は0になり、サンプル平均は一貫しています。しかし、その標準誤差がゼロになるのは、一貫性があるという事実の結果ではありません(またはそれに相当します)。
マクロ

3
@Macroはい、答えを改善することができました。すべてを修飾することは複雑で混乱しやすいので、OPについて技術的になりすぎないことが重要だと思います。ただし、簡単にするために技術的な正確さを犠牲にするべきではありません。だから、編集でこれに対処した方法がこれを行うための最良の方法だと思います。
マイケルチャーニック

9
どうしても必要な場合を除き、技術的な知識を取得しないことが重要です。私の唯一のコメントは、一貫性の概念(技術的概念)を導入することを選択したら、答えを理解しやすくするために、それを誤って特徴付けることは意味がないということです。あなたの編集は私のコメントに対処すると思います。
マクロ

51

以下は、より実用的な(数学ではない)答えです。

  • SD(標準偏差)は散布を定量化します。つまり、値がどれだけ異なるかを表します。
  • SEM(平均の標準誤差)は、母集団の真の平均をどれだけ正確に知っているかを定量化します。SDの値とサンプルサイズの両方が考慮されます。
  • SDとSEMの両方が同じ単位(データの単位)にあります。
  • 定義上、SEMは常にSDよりも小さくなります。
  • サンプルが大きくなると、SEMは小さくなります。これは理にかなっています。なぜなら、大きなサンプルの平均は、小さなサンプルの平均よりも真の母平均に近い可能性が高いからです。膨大なサンプルを使用すると、データが非常に分散している場合でも、平均値を非常に正確に知ることができます。
  • より多くのデータを取得しても、SDは予測どおりに変化しません。サンプルから計算したSDは、母集団全体のSDの可能な限り最良の推定値です。より多くのデータを収集するにつれて、母集団のSDをより正確に評価します。ただし、大きなサンプルのSDが小さなサンプルのSDよりも大きいか小さいかを予測することはできません。(これは単純化されたもので、完全に真実ではありません。以下のコメントをご覧ください。

標準誤差は、平均値だけでなく、データから計算するほとんどすべてのパラメーターについて計算できることに注意してください。「標準エラー」というフレーズは少しあいまいです。上記のポイントは、平均の標準誤差のみを参照しています。

(私が書いたGraphPad統計ガイドから。)


11
+1明確で役立つアドバイス。しかし、いくつかの説明は整然としており、その中で最も重要なことは最後の箇条書きに行きます。SD予測ゲームに挑戦したいと思います。たとえば、正規分布の iidサンプルのSDを観察します。私は SDが次々高くても低くてもしようとしているかどうかを予測するのサンプル、と言います。私が正しいならあなたは私に1ドルを支払い、そうでなければ私はあなたに1ドルを支払います。(正しいプレイで-これを理解することを勧めます!-このゲームへの期待は肯定的であり、ときに約ドルになります。)100 n .18 n = 2n100n.18n=2
whuber

4
@whuber:もちろんあなたは正しい。データを追加しても予測どおりに変化しないのは分散(SDの2乗)です。SDは、特に小さなサンプルから始める場合、サンプルサイズが大きくなるにつれて少し大きくなります。この変化は、サンプルサイズの変化に伴うSEMの変化に比べてわずかです。
ハーヴェイモトゥルスキー

@HarveyMotulsky:なぜsdが増加するのですか?
アンドリュー

サンプルが大きい場合、サンプルの分散は母集団の分散に非常に近いため、サンプルSDは母集団のSDに近くなります。サンプルが小さい場合、サンプルの分散は平均して母分散と等しくなりますが、差異は大きくなります。分散として対称の場合、それらはSDとして非対称になります。例:人口分散は100です。2つの標本分散は80または120(対称)です。サンプルSDは10でなければなりませんが、8.94または10.95になります。母分散の周りに対称に分布し、平均SDから平均サンプルSDSが低いN.で、低くなります
ハーヴェイMotulsky

43

してみましょうあなたが推論をしたい興味のあるパラメータです。これを行うには、観測のサンプルと、、推定値を取得するための手法を利用できます。。この表記では、が依存することを明示しました。実際、別のサンプルがあれば、別の推定値ていたでしょう。これにより、、を表す確率変数の実現になりますX = { X 1... XがN } θ θX)、θXX X θX)、θXθ θX)、θθx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^。このランダム変数は推定器と呼ばれます。標準誤差の(=推定値)は、標準偏差の(=ランダム変数)。見積りに対する自信に関する情報が含まれています。それが大きい場合、別のサンプルを描画した場合、まったく異なる推定値を取得できた可能性があることを意味します。標準誤差は、信頼区間を構築するために使用されます。θ^(x)θ^


1
推定の標準誤差は推定変数の標準偏差に等しいですか?
ユリイ

6

(私は平均の標準誤差に焦点を当てていることに注意してください。質問者もそうだったと思いますが、任意のサンプル統計に対して標準誤差を生成できます)

標準誤差は標準偏差に関連していますが、それらは同じものではなく、サンプルサイズを増やしても両者は近くなりません。むしろ、それはそれらをより遠くにします。サンプルの標準偏差は、標準誤差ではなくサンプルサイズが大きくなるにつれて母標準偏差に近くなります。

時々、これを取り巻く用語が理解しにくい場合があります。

サンプルを収集してそのサンプルの標準偏差を計算すると、サンプルのサイズが大きくなるにつれて、標準偏差の推定値はますます正確になります。あなたが考えていたのはあなたの質問からのようです。しかし、サンプルの平均は、平均して母平均に近い傾向があることも考慮してください。これは標準エラーを理解するために重要です。

標準エラーは、特定のサイズの複数のサンプルを取得した場合に何が起こるかについてです。10個のサンプルを取得すると、平均の推定値を取得できます。次に、10の別のサンプルと新しい平均推定値などを取得します。これらのサンプルの平均の標準偏差は標準誤差です。質問をしたことを考えると、Nが高い場合、サンプルの平均が真の値から大きく逸脱する可能性が低くなるため、標準誤差が小さくなることがわかります。

あるサンプルからこれを計算したことを考えると、ある種の奇跡に聞こえます。そのため、シミュレーションで標準エラーをブートストラップして、関係を示すことができます。Rでは次のようになります。

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

これらの最後の2つのコマンドが同じ数(ほぼ)を生成することがわかります。n、m、およびsの値を変えることができ、それらは常にかなり近い値になります。


投稿していただきありがとうございます。その場合、標準誤差を「サンプリング分布の標準偏差」と記述するのは公平でしょうか?上記のコードブロックでサンプリング分布はyですか?これが私を混乱させ、サンプルパラメータsdと平均値をサンプリング分布パラメータと混同しました。
ダグ・ファー

1
この場合のサンプル平均を指定するために文言を変更する場合、はい。
ジョン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.