概要
真の確率法則についてほとんどまたはまったく想定できず、それについてほとんど推測できない場合(これは、観測値の小さなサンプルの場合です)、適切に選択された順序統計のペアが中央値の信頼区間を構成します。 選択する次数統計は、二項分布の迅速な分析で簡単に見つけることができます。実際に行うべき選択がいくつかあります。これらについては、この投稿の最後で説明および説明されています。(n 、1 / 2 )n(n,1/2)
ちなみに、同じ分析を使用して、任意の分位点信頼区間を構築できます(に対応する中央値はその一例です)。この場合の解は二項分布によって決まります。q = 50 %(n 、q )qq=50%(n,q)
前書き
信頼区間(CI)の意味を思い出してください。 設定は独立したランダムサンプル、各は同じ分布によって管理されます。は、可能な分布のセットの1つの要素であるとのみ想定されています。それぞれに中央値ます。と間の任意の固定場合、レベル CIは、とような関数(別名 "統計")のペアです。X I F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,…,Xn)XiFFΩF1/2α01αLU
PrF(L(X)≤F1/2≤U(X))≥1−α.
右側は、分布 CI のカバレッジです。F
余談ですが、これが有用であるためには、(1)カバレッジの最小値をできるだけ小さくし、(2)間隔の期待される長さ、すべてまたは「ほとんど」の短くする傾向があります。E F(U (X )- L (X ))F ∈ ΩF∈ΩEF(U(X)−L(X))F∈Ω
分析
について何も想定していないとします。Ω この状況でも、注文統計を活用できます。これらは、ソートされたサンプルの特定の値です。表記を簡略化するために、サンプルを1度に並べ替えて、
X1≤X2≤⋯≤Xn.
値は、サンプルの次の統計です。については何も想定していないため、最初はについて何も知りません。そのため、各とその隣のとの間の可能性のある間隔についてはほとんど推測できません。ただし、個々の値について定量的にはできますがの中央値を超えない確率はどれくらいですか? これを理解するために、をによって支配される確率変数とし、I 番目 Ω F X I X I + 1 X I F Y FXiithΩFXiXi+1XiFYF
πF=PrF(Y≤F1/2)
がの中央値を超えない可能性。次に、がわかったとき()、値の元の順序付けられていないサンプルには、少なくともを超えない値が含まれている必要があります。F X I ≤ F 1 / 2 X 1 ≤ ⋯ ≤ X I ≤ F 1 / 2 N I F 1 / 2YFXi≤F1/2X1≤⋯≤Xi≤F1/2niF1/2
これは二項問題です。 正式には、ときに確率変数をに定義し、それ以外の場合にに定義すると、前述のように、パラメータベルヌーイ分布があることがます。「成功」とは、中央値以下の値を観察することです。したがって、は、未満の成功に関連する二項確率によって与えられます。1 Y ≤ F 1 / 2 0 Z π FのPr (X I > F 1 / 2)IZ1Y≤F1/20ZπFPr(Xi>F1/2)i
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
気づいたでしょう。実際、多くの分布では2つの値は等しくなります正の確率を中央値割り当てた場合のみ、これらの値は異なります。違いを分析するには、に対してと記述し。これが意味しますπF≥1/2F 1 / 2 π F = 1 / 2 + ε ε ≥ 0 2 (J - 1 )≤ NFF1/2πF=1/2+εε≥02(j−1)≤n
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
その結果、場合、等式を不等式で置き換える代わりに、合計のへの依存を取り除くことができます。F2(i−1)≤nF
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
まったく同じ引数(順序統計を逆にすることで適用される)は、、2(i+1)≥n
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
右側は、(最初のケース)または(2番目のケース)になると常にゼロになります。したがって、いつでもインデックスを見つけることができます。I ≥ N L ≤ Ui≤0i≥nl≤u
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
解決
これは信頼区間の定義条件の補足であり、したがってそれと同等です。
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
を選択して右側を少なくともにすることで、レベルが少なくとも信頼区間の手順が見つかります。1 - α 1 - αl≤u1−α 1−α
つまり、そのようなインデックスとを選択すると、とにより、間隔は中央値 CIになります。少なくともをカバーしています。二項確率の観点から実際のカバレッジを計算できます。このカバレッジは、(すべての連続分布を含む)にゼロ確率を割り当てるあらゆる分布で達成されます。ゼロ以外の確率を割り当てるこれを超えます。U L (X )= X L U (X )= X U [ L (X )、U (X )] F 1 / 2 1 - α FluL(X)=XlU(X)=Xu[L(X),U(X)]F1/21−αF F F 1 / 2F1/2FF1/2
討論
この時点でいくつかの選択肢があります。最も一般的なのは、を適度に近づけることにより、制限を対称にすることです。実際、規定することにより、任意のの信頼限界をクイック検索で、または二項分位数関数を適用して見つけることができます。n + 1 − l u = n + 1 − l nun+1−lu=n+1−ln
たとえば、およびとしましょう( CI手順を説明するため)。パラメータとを使用して、累積二項分布の下部を集計します。n=10α=10%1−α=90%101/2
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(これはR
コマンドとその応答です。)に等しいの値は近いため、とを取得するのは魅力的です。その場合、カバレッジはになり、目標の近くなります。あなたがいる場合しなければならない必要なカバレッジを達成するため、次にあなたが取る必要がありとまたはと両方のカバレッジで、。25.5%α/2l=3u=10+1−3=81−0.055−0.055=0.8990%l=2u=8l=3u=91−0.011−.055=0.935
チェックとして、あらゆる分布からの多くのデータセットをシミュレートし、データセットのこれらのCIを計算して、真の中央値をカバーするCIの割合を集計します。このR
例では正規分布を使用しています。
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
出力は
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
カバレッジは理論値と密接に一致しています。
別の例として、ポアソンなどの離散分布からサンプルを描画してみましょう。
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
今回はカバレッジは予想よりもはるかに高いです。その理由は、ランダムな値が中央値に等しい確率があるためです。これにより、CIが中央値をカバーする可能性が大幅に高まります。 これは問題でもパラドックスでもありません。定義により、カバレッジは、分布が何であれ、少なくともである必要があります。ただし、(この場合のように)特定の分布のカバレッジがよりも実質的に大きい可能性があります。1 - α F 1 - α27%1−αF1−α
そこにはトレードオフがありますについて何も仮定しない場合、注文統計に基づくCIのみが構築できます。あなたの本当の(しかし未知の)カバレッジは、あなたが期待するよりもかなり高いかもしれません。つまり、の可能性を制限することにより、についてより強い仮定を行った場合よりもCIが広くなります。F Ω FFFΩF