中央値の信頼区間


9

それぞれに少数の値(未満)のサンプルの分布があります。各サンプルの中央値を計算しました。モデルと比較して、モデルと各サンプルの中央値の差を求めます。一貫した結果を得るには、この違いについてエラーが必要です。10

そのような場合に標準偏差を見つけることは、少なくとも私のようなプロではない人にとっては非常に困難になる可能性があります(たとえば、こちらを参照してください)。

公式リファレンスが引用されていなくても、中央値の信頼区間を計算する方法を説明するこのWebサイトを見つけました。

それは私には理にかなっているように見えますが、私は本当に判断することができないので、私は知りたいのです:

  1. それらの式は正しいですか?
  2. そのためのリファレンスはありますか?
  3. CIを検索したい場合はどうなりますか?95%

前もって感謝します

編集:私はまた、非ガウスデータのブートストラップのこの例を見つけました。今、私はブートストラップについてはあまり知りませんが、その有効性についてのアドレスを持つことは良いことです。


サンプル中央値の正確なサンプリング分布は、stats.stackexchange.com/questions/45124で得られます。(ほとんどの回答では漸近分布も示されていますが、ここでは関連性が低いと考えられます。)ただし、どちらも信頼区間と同じではありません...。
whuber

@whuber、リンクに感謝しますが、関係を理解できません。もう少し明確にしていただけませんか?
Py-ser 2014年

特定の統計を使用してパラメーターの信頼区間(CI)を見つけるには、その統計のサンプリング分布を知る必要があります。ここでは、サンプルに基づいて母集団の中央値(パラメーター)のCIを求め、サンプルの中央値(統計)について具体的に質問します。(私が参照するスレッドは、後者の質問に対応しています。)その統計の正確な分布を知ることは重要です。それから、信頼区間の手順を導き出すことができます。漸近的な結果(独自の参照の基になっています)は、サンプルサイズが小さい場合、近似が不十分になるリスクがあります。
whuber

統計はポアソニアンです。しかし、私はまだ理解していません。どの漸近的な結果を参照しますか?これらの式は特定のケースですか?
Py-ser 2014年

1
そのスレッド私の回答を読んだことがないのではないでしょうか。それは、任意の数の観測に対して正確な結果が得られるためです。「これは、連続分布の中央値の分布の正確な式です。」
whuber

回答:


14

概要

真の確率法則についてほとんどまたはまったく想定できず、それについてほとんど推測できない場合(これは、観測値の小さなサンプルの場合です)、適切に選択された順序統計のペアが中央値の信頼区間を構成します。 選択する次数統計は、二項分布の迅速な分析で簡単に見つけることができます。実際に行うべき選択がいくつかあります。これらについては、この投稿の最後で説明および説明されています。n 1 / 2 n(n,1/2)

ちなみに、同じ分析を使用して、任意の分位点信頼区間を構築できます(に対応する中央値はその一例です)。この場合の解は二項分布によって決まります。q = 50 n q qq=50%(n,q)

前書き

信頼区間(CI)の意味を思い出してください。 設定は独立したランダムサンプル、各は同じ分布によって管理されます。は、可能な分布のセットの1つの要素であるとのみ想定されています。それぞれに中央値ます。と間の任意の固定場合、レベル CIは、とような関数(別名 "統計")のペアです。X I F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,,Xn)XiFFΩF1/2α01αLU

PrF(L(X)F1/2U(X))1α.

右側は、分布 CI のカバレッジです。F

余談ですが、これが有用であるためには、(1)カバレッジの最小値をできるだけ小さくし、(2)間隔の期待される長さ、すべてまたは「ほとんど」の短くする傾向があります。E FU X - L X F ΩFΩEF(U(X)L(X))FΩ

分析

について何も想定していないとします。Ω この状況でも、注文統計を活用できます。これらは、ソートされたサンプルの特定の値です。表記を簡略化するために、サンプルを1度に並べ替えて、

X1X2Xn.

値は、サンプルの次の統計です。については何も想定していないため、最初はについて何も知りません。そのため、各とその隣のとの間の可能性のある間隔についてはほとんど推測できません。ただし、個々の値について定量的にはできますの中央値を超えない確率はどれくらいですか? これを理解するために、をによって支配される確率変数とし、I 番目 Ω F X I X I + 1 X I F Y FXiithΩFXiXi+1XiFYF

πF=PrF(YF1/2)

がの中央値を超えない可能性。次に、がわかったとき()、値の元の順序付けられていないサンプルには、少なくともを超えない値が含まれている必要があります。F X IF 1 / 2 X 1X IF 1 / 2 N I F 1 / 2YFXiF1/2X1XiF1/2niF1/2

これは二項問題です。 正式には、ときに確率変数をに定義し、それ以外の場合にに定義すると、前述のように、パラメータベルヌーイ分布があることがます。「成功」とは、中央値以下の値を観察することです。したがって、は、未満の成功に関連する二項確率によって与えられます。1 Y F 1 / 2 0 Z π FのPr X I > F 1 / 2IZ1YF1/20ZπFPr(Xi>F1/2)i

Pr(Xi>F1/2)=j=0i1(nj)πFj(1πF)nj.

気づいたでしょう。実際、多くの分布では2つの値は等しくなります正の確率を中央値割り当てた場合のみ、これらの値は異なります。違いを分析するには、に対してと記述し。これが意味しますπF1/2F 1 / 2 π F = 1 / 2 + ε ε 0 2 J - 1 NFF1/2πF=1/2+εε02(j1)n

πFj(1πF)nj=(1/2+ε)j(1/2ε)nj=(1/2+ε)j[(1/2ε)j(1/2ε)n2j]=(1/4ε2)j(1/2ε)n2j(1/4)j(1/2)n2j=2n.

その結果、場合、等式を不等式で置き換える代わりに、合計のへの依存を取り除くことができます。F2(i1)nF

Pr(Xi>F1/2)2nj=0i1(nj).

まったく同じ引数(順序統計を逆にすることで適用される)は、、2(i+1)n

Pr(Xi<F1/2)2nj=i+1n(nj).

右側は、(最初のケース)または(2番目のケース)になると常にゼロになります。したがって、いつでもインデックスを見つけることができます。I N L Ui0inlu

Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)2n(j=0l1(nj)+j=u+1n(nj)).

解決

これは信頼区間の定義条件の補足であり、したがってそれと同等です。

Pr(XlF1/2Xu)2nj=lu(nj).

を選択して右側を少なくともにすることで、レベルが少なくとも信頼区間の手順が見つかります。1 - α 1 - αlu1α 1α

つまり、そのようなインデックスとを選択すると、とにより、間隔は中央値 CIになります。少なくともをカバーしています。二項確率の観点から実際のカバレッジを計算できます。このカバレッジは、(すべての連続分布を含む)にゼロ確率を割り当てるあらゆる分布で達成されます。ゼロ以外の確率を割り当てるこれを超えます。U L X = X L U X = X U [ L X U X ] F 1 / 2 1 - α FluL(X)=XlU(X)=Xu[L(X),U(X)]F1/21αF F F 1 / 2F1/2FF1/2

討論

この時点でいくつかの選択肢があります。最も一般的なのは、を適度に近づけることにより、制限を対称にすることです。実際、規定することにより、任意のの信頼限界をクイック検索で、または二項分位数関数を適用して見つけることができます。n + 1 l u = n + 1 l nun+1lu=n+1ln

たとえば、およびとしましょう( CI手順を説明するため)。パラメータとを使用して、累積二項分布の下部を集計します。n=10α=10%1α=90%101/2

> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
    0     1     2     3     4     5   
0.001 0.011 0.055 0.172 0.377 0.623 

(これはRコマンドとその応答です。)に等しいの値は近いため、とを取得するのは魅力的です。その場合、カバレッジはになり、目標の近くなります。あなたがいる場合しなければならない必要なカバレッジを達成するため、次にあなたが取る必要がありとまたはと両方のカバレッジで、。25.5%α/2l=3u=10+13=810.0550.055=0.8990%l=2u=8l=3u=910.011.055=0.935

チェックとして、あらゆる分布からの多くのデータセットをシミュレートし、データセットのこれらのCIを計算して、真の中央値をカバーするCIの割合を集計します。このR例では正規分布を使用しています。

n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

出力は

 l3.u8  l2.u8  l3.u9 
 0.8904 0.9357 0.9319 

カバレッジは理論値と密接に一致しています。

別の例として、ポアソンなどの離散分布からサンプルを描画してみましょう。

lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

 l3.u8  l2.u8  l3.u9 
0.9830 0.9845 0.9964 

今回はカバレッジは予想よりもはるかに高いです。その理由は、ランダムな値中央値に等しい確率があるためです。これにより、CIが中央値をカバーする可能性が大幅に高まります。 これは問題でもパラドックスでもありません。定義により、カバレッジは、分布が何であれ、少なくともである必要があります。ただし、(この場合のように)特定の分布のカバレッジがよりも実質的に大きい可能性があります。1 - α F 1 - α27%1αF1α

そこにはトレードオフがありますについて何も仮定しない場合、注文統計に基づくCIのみが構築できます。あなたの本当の(しかし未知の)カバレッジは、あなたが期待するよりもかなり高いかもしれません。つまり、の可能性を制限することにより、についてより強い仮定を行った場合よりもCIが広くなります。F Ω FFFΩF


この回答は、質問#3に焦点を当てています。最初の2つの質問(1)(「これらの式は正しいですか?」)については、二項分布に対して正規近似を使用しているため、答えは完全ではありません。(2)(「参照があります」)、答えはおそらくですが、誰が気にしますか?この回答の分析の参考資料は、ハーンとミーカーの統計的間隔です。
whuber

3

数値的手法を使用する場合は、ブートストラップを使用して中央値の標本分布の推定値を生成できます。サンプルを繰り返しリサンプリングし、多くの中央値を計算します。これらの中央値の標準偏差は、中央値のサンプリング分布の標準偏差の推定値として機能します。同様の方法を使用して、チェスギャンビットに関する私の論文のチェスゲームの結果の不確実性を計算しましたこれは、https: //sonoma.academia.edu/JamalMunshi/papersにあります


これは良い考えです。質問へのコメントに照らして、必要なのは、小さいに対するその精度の分析です。また、正確な分布は閉じた形で簡単に取得できるため、実際に繰り返しリサンプリングすることには意味がありません。データセット場合、ブートストラップサンプルの中央値が超えない確率(ここで)は、少なくとも半分の確率です。サンプル値は、セットます。これは、パラメーターおよび二項分布によって与えられます。X 1X 2X N、X 、X IX < X I + 1 { X 1X 2 ··· X I } N I / Nnx1x2xnxxix<xi+1{x1,x2,xi}ni/n
whuber

@whuber、申し訳ありませんが、「これは良いアイデアではない」という意味ですか?
Py-ser 2015

@ Py-ser基礎となるアイデアは、そのバージョンが機能するという意味では優れていますが、解釈と実装の両方に改善が必要です。
whuber

しかし、これまでの議論の全体では、ブートストラップは良い考えではないと考えていました。
Py-ser 2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.