正規分布からのサンプル標準偏差の標準偏差を見つけるにはどうすればよいですか?


11

私がかなり明白な何かを見逃した場合、私を許してください。

私は物理学者であり、本質的には正規分布に近似する平均値を中心とした(ヒストグラム)分布です。私にとって重要な値は、このガウス確率変数の標準偏差です。サンプル標準偏差のエラーを見つけるにはどうすればよいですか?元のヒストグラムの各ビンのエラーと関係があると感じています。


ヒントはstats.stackexchange.com/questions/26924で提供されています。一般に、分散のサンプリングエラーは、分布の最初の4つのモーメントに関して計算できるため、SDのサンプリングエラーは少なくともそれらのモーメントから推定できます。
whuber

回答:


12

サンプル標準偏差の標準偏差の計算を求めているようです。つまり、求めています。ここで、SD(s)=var(s)

s=1n1i=1n(XiX¯),

X1,...,XnN(μ,σ2)およびは標本平均です。X¯

まず、分散の基本的な特性から、

var(s)=E(s2)E(s)2

標本分散には偏りがないため、であることがわかります。ではなぜ、サンプルの標準偏差は、の偏った推定量である、が計算され、そこから推測できますσ E S E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

したがって

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

いい視点ね。s ^ 2の分散の推定値を取得しました。平方根をとると、s ^ 2の標準偏差の推定値が得られます。しかし、sの標準偏差を取得するという実際の質問に答えました。実用的な理由から、式を使用して推定値を取得するために、σもsに置き換えると思います。
Michael R. Chernick

はい、そうです。を置き換えることができます。この近似は、適度なサンプルサイズでもうまく機能しますいくつかのテストを行いました。S 、N = 20σsn=20
マクロ

11

量は、サンプルが独立していて同じ正規分布で分布している場合、自由度がカイ2乗分布です。この量を使用して、信頼度を求めることができます。法線とその標準偏差の分散の間隔。ビンの中心値だけでなく生の値がある場合は、計算できます。 N - 1 、S 2X=(n1)s2/σ2n1s2

が自由度カイ2乗分布を持つ、その分散はことがわかっています。これとという事実を知ると、の分散は等しいことがわかります が不明であるあなたはでそれを近似することができる、あなたは何の分散の目安持っあるが。N - 1 2 N - 1 V RC X = C 2 V RX S 2 2 N - 1 σ 4Xn12(n1)Var(cX)=c2Var(X)s2

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

私はこれを最初に投稿するつもりでしたが、ここで見ると問題はが不明であることです。その事実を考えると、サンプルサイズさえわからなくても、を概算することが有効かどうかはわかりません。4番目の瞬間が外れ値で深刻な問題を抱えることを示すことができることを思い出します。σ2s4σ4
ネストル

s4は一貫した推定量です(が存在する場合)、正しい@Nesp?これは通常、「おおよそ」または「大まかなアイデア」と言われたときに意味されると思います。σ4σ4
マクロ

2
睡眠不足かもしれませんが、それは循環的な推論のようなものではありませんか?
ネストル

当初からデータは正規分布からのものであると想定していたため、異常値の問題はありません。マクロが示唆するように私はラフを意味しました。サンプルサイズがs ^ 4がσ^ 4にどれだけ近いかに影響することに同意します。しかし、外れ値についての心配はオフベースのNespです。あなたが私に反対票を投じたとしたら、それは非常に不公平だと思います。私が提示したのは、データが正常に分布している場合のs ^ 2の標準偏差を推定する標準的な方法です。
マイケルR.チェニック

@Nesp、マイケルは、正規分布サンプルからのサンプル標準偏差の分散の一貫した推定量を与えました-大きなサンプルの場合、それはうまくいきます-それをシミュレートして見つけてください。これが循環的な推論であると考える理由がわかりません。
マクロ

7

通常の場合、標準偏差の誤差を定量化する方法はいくつかあります。信頼区間の概算に使用できるプロファイル尤度を提示します。σ

してみましょうノーマルからのサンプルであっても。対応する尤度関数は、x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

次に、最尤推定量はで与えられ。ここで、。の誤差を定量化することに関心がある場合、このパラメーターの正規化されたプロファイル尤度を次のように計算できます。(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

あることに注意してください。レベルの区間には、およそ信頼度があります。次に、これらの区間の計算に使用できるコードを添付します。これを変更できます状況に応じて(または、データを投稿する場合、これらの変更を含めることができます)。0.147 0.95 RRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

この種の間隔の利点は、変換の際に不変であることです。この場合、、間隔を計算すると、対応する間隔は単純にます。I = L U σI=(L,U)I ' = L 2U 2σ2I=(L2,U2)


彼は本当にsの標準偏差がほしかったと思う。
Michael R. Chernick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.