必要なサンプルサイズ、分散推定の精度を計算していますか?


17

バックグラウンド

分布が不明な変数があります。

500個のサンプルがありますが、分散を計算できる精度を実証したいと思います。たとえば、サンプルサイズ500で十分だと主張します。また、分散を精度で推定するために必要な最小サンプルサイズを知ることに興味があります。X%

ご質問

どうすれば計算できますか

  1. サンプルサイズ所与分散の私の推定値の精度??n=500n=N
  2. 精度で分散を推定するために必要なサンプルの最小数を計算するにはどうすればよいですか?X

図1 500サンプルに基づくパラメーターの密度推定。

ここに画像の説明を入力してください

図2これは、x軸のサンプルサイズと、500のサンプルのサブサンプルを使用して計算したy軸の分散の推定値のプロットです。nが増加すると、推定値は真の分散に収束します。 。

ただし、分散を推定するために使用されるサンプルは互いに独立していないか、分散を計算するために使用されるサンプルとはN [ 20 40 80 ]n[10,125,250,500]n[20,40,80]

ここに画像の説明を入力してください


未知の分布の成分がコーシー分布である場合、分散は未定義であることに注意してください。
マイクアンダーソン

@Mikeまたは、他の無数のディストリビューション。
Glen_b-モニカを

回答:


10

iidランダム変数場合、分散(分母持つもの)の不偏推定量には分散があります。s 2 n 1X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

ここで、は分布の過剰な尖度です(参照:Wikipedia)。そのため、分布の尖度も推定する必要があります。と呼ばれることもある量を使用できます(Wikipediaからも):γ 2κγ2

γ2=μ4σ43

私はあなたが使用している場合と仮定しますの推定値としてとのための推定値として、あなたがのための合理的な見積もりを取得することを私は保証が表示されていないものの、それが公平であること。500個のデータポイントのサブセット間の分散と合理的に一致するかどうか、そしてそれをもう心配しないかどうかを確認してください:)sσγ2κVar(s2)


バイアスの不偏推定量に関する教科書の参照はありますか?より多くの文脈のためにウィキペディアからどこに行くべきかわかりません。
阿部

ここには標準テキストのRiceがありませんので、ページ番号を確認することはできませんが、そこにあると確信しています。:GCは、モンゴメリー、DCおよびRunger:ウィキペディアは、それがまたで言及されるべきである提案するエンジニアのための応用統計と確率のページ201ジョン・ワイリー・アンド・サンズ、ニューヨーク、1994、
エリックP.

これにご協力いただきありがとうございます。この答えは非常に有用であり、分散の不確実性を定量化するのに有益でした。最終日にこの方程式を約10回適用しました。計算簡単ですライブラリー: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
阿部

Riceテキストからページ番号を見つけた可能性はありますか?CasellaとBergerにはありません。あなたがそれを知っていれば、一次参照はさらに良いでしょう。ウィキペディアのページは特に参照されていません。
安倍

うーん...ライスにも式がないようです。私はそれを監視し続けますが、この時点で私はまったく参照を持っていません。
エリックP.

15

分散の学習は困難です。

多くの場合、分散をうまく推定するには(おそらく驚くほど)多数のサンプルが必要です。以下に、iidの通常のサンプルの「標準的な」ケースの開発を示します。

Yii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2s2=10(8,13)s2

s2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
χ(n1)2ββn1(n1)s2/σ2

なるように幅を最小化したい

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

n=65ρ=1n=5321ρ=0.1

nn

nρ

α^log0.1log1log5321log65=log10log5231650.525,

残念ながら、明らかに遅いです!


これは一種の「標準的な」ケースで、計算の進め方を感じさせます。プロットに基づいて、データは特に正常に見えません。特に、顕著な歪度と思われるものがあります。

しかし、これはあなたに何を期待するかの大まかなアイデアを与えるはずです。上記の2番目の質問に答えるには、最初にいくつかの信頼レベルを修正する必要があることに注意してください。デモでは、上記の開発で99%に設定しました。


n|ρrhon=65ρ<1ρ1×s2ρ1%s2

@Abe、プロセスで更新され、うまくいけば明確になりました。以前のバージョンには、特に悪いタイプミスが1つありました。ごめんなさい
枢機

非常に良い答えですが、@ Erikから選んだのは、私の問題により適切であるためです(パラメーターが正規分布していないため)。
安倍

@阿部:問題ありません。それがチェックマークの目的です。私の答えは、何よりも実例となることを意図していました。私が言えることから、それまだあなたの両方の質問に対処する唯一のものであるように見え、エリックが概説するシナリオでさえ(漸近的に)正しいでしょう。(1年以上前に彼に+1しました。):)
枢機

s(ss)s[lcl,ucl]

1

より簡単に解釈できる規模にあるため、分散ではなくSDに焦点を当てます。

人々は時々SDまたは分散の信頼区間を見ますが、焦点は一般的に平均です。

s2/σ2σ2σσ2


(この返事は、重複した質問の枠組であり、多少異なって枠組されていたが、マージされた後にここに来た。)
whuber

1

次の解決策は、1950年のJASA論文でGreenwoodとSandomireによって提供されました。

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

これは、以下のもの と ピボット量は分布があり、2つの確率が加算されるため、のPr

Pr{(n1)S2σ2<(n1)(1u)2}=a
N-1S2/σ2χ2 N - 1
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
(n1)S2/σ2χn12

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

そして、必要なサンプルサイズは、指定されたおよびについての前の方程式を解くとわかります。γ Unγu

R コード。

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

用の出力と。γ = 95 u=10%γ=95%

Sample size n = 193
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.