信頼区間について混乱


10

信頼区間の概念について混乱しています。具体的には、既知のガウス変数があり、信頼水準での平均の下限に興味があるとます。σ μ L 95 XN(μ,σ)σμL95%

回の実験を行い、、、、、ます。X 1 X 2 X 3 X 4 X 55X1X2X3X4X5

オプション1:各サンプルを個別に扱い、各を計算できます。そして、これらの5つのから実際の下限を計算する方法(方法はわかりません)があるとます。X I μ LμL=XiσzXiμL

オプション2:一方、を取る場合、を計算できます。(が正常であると仮定すると、t-statも使用できます。)μのL = T - σ / T=(X1+X2+X3+X4+X5)/5TμL=Tσ/5zT

サンプルに基づいて下限を計算するオプション2以外の方法はありますか?オプション1の場合、計算された5つの下限に基づいて下限を計算する方法はありますか?5

回答:


12

これは、別の手順の可能性を探り、ある手順が他の手順よりも優れている理由と方法について考えるように求められるので、すばらしい質問です。

短い答えは、平均の信頼限界を下げるための手順を考案する方法は無限にあるということですが、これらのいくつかはより良いものと悪いものがあります(意味のある明確な意味で)。オプション2は、同等の品質の結果を得るために、オプション1を使用する人の半分以下のデータを収集する必要があるため、優れた手順です。データの半分は、通常、予算と時間の半分を意味するため、実質的かつ経済的に重要な違いについて話します。 これは、統計理論の価値を具体的に示しています。


多くの優れた教科書アカウントが存在する理論を再ハッシュするのではなく、既知の標準偏差の独立した正規変量に対する3つの信頼限界(LCL)の手順をすばやく検討しましょう。私は質問で提案された3つの自然で有望なものを選びました。それらのそれぞれは、望ましい信頼レベルによって決定されます。1 - αn1α

  • オプション1a、「最小」手順。信頼限界の下限は等しく設定されます。数の値可能性ように決定され真の平均超えるわずかである。つまり、です。tmin=min(X1,X2,,Xn)kα,n,σminσkα,n,σmintminμαPr(tmin>μ)=α

  • オプション1b、「最大」手順。信頼下限は等しく設定されます。数の値可能性ように決定され真の平均超えるわずかである。つまり、です。tmax=max(X1,X2,,Xn)kα,n,σmaxσkα,n,σmaxtmaxμαPr(tmax>μ)=α

  • オプション2、「平均」手順。信頼限界の下限は、等しく設定され。数の値可能性ように決定される真の平均超えるわずかである。つまり、です。tmean=mean(X1,X2,,Xn)kα,n,σmeanσkα,n,σmeantmeanμαPr(tmean>μ)=α

よく知られているように、 where ; は、標準正規分布の累積確率関数です。これは、質問で引用された式です。数学的略記​​はkα,n,σmean=zα/nΦ(zα)=1αΦ

  • kα,n,σmean=Φ1(1α)/n.

最小および最大手順の式はあまり知られていませんが、簡単に決定できます。

  • kα,n,σmin=Φ1(1α1/n)

  • kα,n,σmax=Φ1((1α)1/n)

シミュレーションにより、3つすべての数式が機能することがわかります。次のRコードは、実験をn.trials別々に実行し、各試行の3つのLCLすべてを報告します。

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(コードは一般的な正規分布で動作することを気にしません:測定の単位と測定スケールのゼロを自由に選択できるため、ケース、を検討することで十分です。それが理由ですさまざまなの式は、実際にはに依存していません。)μ=0σ=1kα,n,σσ

10,000回の試行で十分な精度が得られます。シミュレーションを実行して、各プロシージャが真の平均よりも小さい信頼限界を生成できない頻度を計算します。

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

出力は

   max    min   mean 
0.0515 0.0527 0.0520

これらの頻度は、の規定値に十分に近く、3つの手順すべてが宣伝どおりに機能することを満足できます。それぞれの頻度は、平均の95%信頼下限信頼限界を生成します。α=.05

(これらの頻度がとわずかに異なることが心配な場合は、より多くの試行を実行できます万回の試行では、それらはさらに近づきます:。).05.05(0.050547,0.049877,0.050274)

ただし、LCLプロシージャについて私たちが望んでいることの1つは、意図した時間の比率が正しいだけでなく、ほぼ正しい傾向にあることです。 例えば、(架空の)深い宗教的感性のおかげで、代わりにデータ収集の(アポロ)デルフォイの神託に相談することができ、統計学者想像とLCLの計算を行っています。彼女が神に95%のLCLを要求すると、神は真の意味を占い、それを彼女に伝えます-結局のところ、彼は完璧です。しかし、神は自分の能力を人類と完全に共有することを望まないため(これは間違いのないままでなければなりません)、5%の確率で LCLを与えます。X1,X2,,Xn100σ高すぎる。このDelphicプロシージャも95%LCLですが、本当に恐ろしい境界を生成するリスクがあるため、実際に使用するのは恐ろしいものになります。

3つのLCL手順がどれほど正確であるかを評価できます。 良い方法は、それらのサンプリング分布を確認することです。同等に、多くのシミュレーション値のヒストグラムも同様に機能します。どうぞ。最初に、それらを生成するコード:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

ヒストグラム

それらは同一のx軸に表示されます(ただし、垂直軸はわずかに異なります)。私たちが興味を持っているのは

  1. の右側の赤い部分(これらの領域は、手順平均を過小評価できなかった頻度を表します)は、すべて望ましい量のとほぼ同じです。(すでに数値で確認済みです。)0α=.05

  2. シミュレーション結果の広がり。明らかに、右端のヒストグラムが狭くなっている他の二つより:それは確かに平均値を過小評価という手順を説明します(に等しい完全に)%の時間を、それがない場合でも、その過小評価は内、ほとんど常にの真の意味。他の2つのヒストグラムは、真の平均を少しだけ低く見積もる傾向があり、約は低すぎます。また、真の平均を過大評価する場合、右端の手順よりも過大評価する傾向があります。これらの品質により、右端のヒストグラムよりも劣ります。0952σ3σ

右端のヒストグラムは、従来のLCL手順であるオプション2を示しています。

これらの広がりの1つの指標は、シミュレーション結果の標準偏差です。

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

これらの数値は、最大最小の手順の拡散が等しい(約)ことと、通常の平均の手順の拡散が約3分の2(約)しかないことを示しています。これは私たちの目の証拠を裏付けています。0.680.45

標準偏差の二乗は、分散されているに等しい、、およびをそれぞれ、。 差異はデータ量に関連している可能性があります。1人のアナリストがmax(またはmin)手順を推奨する場合、通常の手順で示される狭いスプレッドを実現するには、クライアントは倍のデータを取得する必要があります。 -2倍以上。つまり、オプション1を使用すると、オプション2を使用する場合よりも2倍以上の情報を支払うことになります。0.450.450.200.45/0.21


2
あなたは私を驚かせることを決して失敗しません。
モモ

+1 @whuberこれは素晴らしいイラストです。ブートストラップ信頼区間の説明で、エフロンは正確さと正確さについて話します。精度は、間隔の真の信頼レベルがアドバタイズされた値に近いことです。あなたの3つの例はすべて正確です。正しさは最高を指します。幅が最も短い正確な信頼区間を意味する両側信頼区間の場合(区間またはケースの平均に基づく境界)。3つの方法には少なくともある程度の競争力があるため、この例は興味深いものです。
Michael R. Chernick 2012

OPsオプション1は、私の回答で述べた理由により、競争力に近づきません。
Michael R. Chernick 2012

@マイケル私は、オプション1の解釈に競争力がないことに同意します。私が興味深いと思い、ここで調べたのは、5つの別々の境界から「実際の下限を計算する」方法について、いくつかの実行可能な解釈があることです。私はおそらく「中央値」オプションも注意深く検討する必要がありました。通常の計算に比べてそれほど劣ることはありません(約40%効率が悪い)。
whuber

1

最初のオプションは、サンプルから得られる分散の減少を考慮していません。最初のオプションは、それぞれの場合のサイズ1のサンプルに基づいて、平均の95%信頼限界を5つ下げます。それらを平均によって組み合わせても、95%の下限として解釈できる上限は作成されません。誰もそんなことはしないだろう。2番目のオプションは、実行することです。5つの独立した観測値の平均の分散は、単一のサンプルの分散よりも6倍小さい。したがって、最初の方法で計算した5つよりもはるかに良い下限が得られます。

また、Xがiid正常であると想定できる場合、Tは正常です。i

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.