標準誤差と標準偏差の違いを理解するのに苦労しています。それらはどのように異なり、なぜ標準誤差を測定する必要があるのですか?
標準誤差と標準偏差の違いを理解するのに苦労しています。それらはどのように異なり、なぜ標準誤差を測定する必要があるのですか?
回答:
質問への答えを完成させるために、Ocramは標準誤差にうまく対処しましたが、標準偏差とは対照的でなく、サンプルサイズへの依存については言及しませんでした。推定器の特殊なケースとして、サンプル平均を考慮してください。平均の標準誤差はここで σ母標準偏差です。したがって、この例では、サンプルサイズの増加に伴い標準誤差がどのように減少するかを明示的に確認できます。標準偏差は、個々の観測値を参照するために最もよく使用されます。したがって、標準偏差は個々の観測値のばらつきを表し、標準誤差は推定量のばらつきを表します。良い推定量は一貫しており、つまり、真のパラメーター値に収束します。サンプルサイズが増加して標準誤差が0に減少すると、推定値は一貫します。これは、サンプル平均で明示的に見られるように標準誤差が0になるため、ほとんどの場合に起こります。
以下は、より実用的な(数学ではない)答えです。
標準誤差は、平均値だけでなく、データから計算するほとんどすべてのパラメーターについて計算できることに注意してください。「標準エラー」というフレーズは少しあいまいです。上記のポイントは、平均の標準誤差のみを参照しています。
(私が書いたGraphPad統計ガイドから。)
してみましょうあなたが推論をしたい興味のあるパラメータです。これを行うには、観測のサンプルと、、推定値を取得するための手法を利用できます。。この表記では、が依存することを明示しました。実際、別のサンプルがあれば、別の推定値ていたでしょう。これにより、、を表す確率変数の実現になりますX = { X 1、... 、XがN } θ θ(X)、θ(X)X 〜X θ(〜X)、θ(X)θ θ(X)、θ。このランダム変数は推定器と呼ばれます。標準誤差の(=推定値)は、標準偏差の(=ランダム変数)。見積りに対する自信に関する情報が含まれています。それが大きい場合、別のサンプルを描画した場合、まったく異なる推定値を取得できた可能性があることを意味します。標準誤差は、信頼区間を構築するために使用されます。
(私は平均の標準誤差に焦点を当てていることに注意してください。質問者もそうだったと思いますが、任意のサンプル統計に対して標準誤差を生成できます)
標準誤差は標準偏差に関連していますが、それらは同じものではなく、サンプルサイズを増やしても両者は近くなりません。むしろ、それはそれらをより遠くにします。サンプルの標準偏差は、標準誤差ではなくサンプルサイズが大きくなるにつれて母標準偏差に近くなります。
時々、これを取り巻く用語が理解しにくい場合があります。
サンプルを収集してそのサンプルの標準偏差を計算すると、サンプルのサイズが大きくなるにつれて、標準偏差の推定値はますます正確になります。あなたが考えていたのはあなたの質問からのようです。しかし、サンプルの平均は、平均して母平均に近い傾向があることも考慮してください。これは標準エラーを理解するために重要です。
標準エラーは、特定のサイズの複数のサンプルを取得した場合に何が起こるかについてです。10個のサンプルを取得すると、平均の推定値を取得できます。次に、10の別のサンプルと新しい平均推定値などを取得します。これらのサンプルの平均の標準偏差は標準誤差です。質問をしたことを考えると、Nが高い場合、サンプルの平均が真の値から大きく逸脱する可能性が低くなるため、標準誤差が小さくなることがわかります。
あるサンプルからこれを計算したことを考えると、ある種の奇跡に聞こえます。そのため、シミュレーションで標準エラーをブートストラップして、関係を示すことができます。Rでは次のようになります。
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
これらの最後の2つのコマンドが同じ数(ほぼ)を生成することがわかります。n、m、およびsの値を変えることができ、それらは常にかなり近い値になります。