サンプル中央値の中心極限定理


54

同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか?

そうでない場合、サンプル中央値の基礎となる分布は何ですか?


9
中央値が制限内で再スケーリングされたときに正規分布になるように、いくつかの規則性条件が必要です。何がうまくいかないかを見るために、有限個の点、たとえばユニフォーム上の分布を考慮してください。X{1,0,1}
枢機

5
規則性条件に関して:基礎となる分布が(真の)中央値で微分可能な密度を持っている場合、標本中央値は、その導関数に依存する分散を持つ漸近正規分布を持ちます。これは、任意の変位値に対してより一般的に成り立ちます。
枢機

6
@cardinal追加の条件が必要だと思います:密度が二階微分可能で、中央値でゼロに等しく、そこに一次導関数がゼロの場合、サンプル中央値の漸近分布は二峰性になります。
whuber

4
@whuber:はい、密度(以前に誤って述べたようにその導関数ではない)が逆数として分散に入るため、その点での密度の値はゼロであってはなりません。その状態を落としてすみません!
枢機

4
基本反例は、任意の確率分布割り当て使用して作成することができる間隔に確率になどをベルヌーイ()。サンプルの中央値は、以上である限り、以下になります。中央値がない可能性は、大きなサンプルではに近づき、事実上「ギャップ」を残します1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ(μ,μ+δ)0(μ,μ+δ)制限された分布-それは明らかにそれがどのように標準化されても、非正規になるでしょう。
whuber

回答:


38

あなたは(つまり、標識変数の面で作業する場合場合とそれ以外の場合は)、あなたは直接の平均に中心極限定理を適用することができさん、そして使って、デルタ法をにそのを回し、漸近正規分布。これは、固定分位数に対して漸近正規性が得られることを意味します。Zi=1Xix0ZF - 1 Xˉ ZXFX1(Z¯)X

したがって、中央値だけでなく、四分位数、90パーセンタイルなども...

大まかに言えば、十分に大きいサンプルで番目のサンプル分位数について話している場合、平均で番目の人口分位数と分散を持つ正規分布を持つことになります。qqxqq(1q)/(nfX(xq)2)

したがって、中央値()の場合、十分に大きいサンプルの分散は約ます。q=1/21/(4nfX(μ~)2)

もちろん、保持するにはすべての条件が必要なので、すべての状況で機能するわけではありませんが、人口分位の密度が正で微分可能な連続分布の場合などは...

さらに、CLTが作動しないため、極端な分位数には当てはまりません(Zの平均は漸近的に正常ではありません)。極値には異なる理論が必要です。


編集:whuberの批評は正しいです。これは、が標本中央値ではなく母集団中央値である場合に機能します。引数は、実際に正しく機能するように変更する必要があります。x


5
この説明の論理的な部分の1つが欠落している可能性があると思います。つまり、サンプル中央値を取得するためにインジケーターをどのくらい正確に使用するのでしょうか。が基礎となる中央値である場合、インジケーターがどのように機能するかがわかります。ただし、このインジケーターはサンプルの中央値またはその関数と一致しませX IXxXix
whuberの

漸近正規分布からどのようにしてXの固定分位数の漸近正規性を取得しますか?編集:私はそれを得たが、それ 0〜100%こうして分位値が漸近的に正常であるパーセント値になる¯ ZFX1(Z¯)Z¯
アダム

48

重要な考え方は、中央値のサンプリング分布は、分布関数で表現するのは簡単ですが、中央値で表現するのはより複雑であることです。分布関数がどのように値を確率として再表現できるかを理解したら、中央値の正確なサンプリング分布を導き出すのは簡単です。これが漸近的に正規であることを示すには、中央値付近の分布関数の動作を少し分析する必要があります。

(中央値だけでなく、任意の分位のサンプリング分布に対しても同じ分析が機能します。)

私はこの博覧会で厳密にしようとはしませんが、あなたがそうする心があれば、厳密な方法で容易に正当化されるステップでそれを実行します。


直感

これらは、高温の原子ガスの70個の原子を含むボックスのスナップショットです。

図1

各画像で、赤の縦線で示されている位置を見つけました。これは、原子を左(黒点として描画)と右(白点)の間の2つの等しいグループに分割します。これは位置の中央値です。35個の原子が左に、35個が右にあります。原子がボックス内をランダムに移動しているため、中央値が変化します。

このミドルポジションの分布に興味があります。そのような質問は、私の手順を逆にすることで答えられます。まず、どこかで、たとえば位置垂直線を引きましょう。原子の半分がの左側にあり、半分がその右側にある可能性はどのくらいですか?左側の原子は個別にが左側になる可能性がありました。右側の原子は個別に右側にチャンスがありました。それらの位置が統計的に独立していると仮定すると、チャンスは増加し、この特定の構成のチャンスにを与えます。等価な構成は、種々の分割のために達成することができた二つに原子x x 1 x x 351 x 35 70 35xxx1xx35(1x)357035-要素の断片。このようなすべての可能な分割にこれらの数値を追加すると、

Pr(x is a median)=Cxn/2(1x)n/2

ここで、は原子の総数であり、は個の原子を2つの等しいサブグループに分割した数に比例します。nCn

この式は、中央値の分布をベータ分布(n/2+1,n/2+1)として識別します。

次に、より複雑な形状のボックスを考えてみましょう。

図2

ここでも中央値は異なります。ボックスは中心近くで低いため、そのボリュームの多くはありません:原子の左半分(再び黒いもの)が占めるボリュームの小さな変化-または、これらの図に示されている左側の領域は、中央値の水平位置の比較的大きな変化に対応しています。実際、ボックスの小さな水平セクションで囲まれた領域はその高さに比例するため、中央値の変化はボックスの高さで除算されます。これにより、中央値が正方形のボックスよりもこのボックスの方が変動しやすくなります。これは、中央値が中央で非常に低いためです。

つまり、中央値の位置を面積(左と右)で測定すると、元の分析(正方形のボックスの場合)は変わりません。 ボックスの形状は、水平位置に関​​して中央値を測定することを主張する場合にのみ、分布を複雑にします。そうすると、領域と位置表現の関係はボックスの高さに反比例します。

これらの写真から学ぶことはもっとあります。(どちらかの)ボックスに原子がほとんどない場合、原子の半分が誤ってどちらかの側にクラスター化される可能性が高いことは明らかです。原子の数が増えると、このような極端な不均衡の可能性は減少します。でいっぱいに湾曲ボックスのために- 5000のフレームの長いシリーズ-これを追跡するために、私は「映画」を取ったで、その後、その後、、そして最後に原子、および中央値を指摘しました。中央位置のヒストグラムは次のとおりです。31575375

図3

明らかに、十分に多くの原子について、それらの中央位置の分布は鐘型に見え始め、より狭くなります。それは中央極限定理の結果のように見えませんか?


定量的結果

もちろん、「ボックス」は、ある分布の確率密度を表します。その上部は密度関数のグラフ(PDF)です。したがって、エリアは確率を表します。ボックス内にポイントをランダムに独立して配置し、それらの水平位置を観察することは、分布からサンプルを引き出す1つの方法です。(これは拒否サンプリングの背後にある考え方です。n

次の図は、これらのアイデアを結び付けています。

図4

これは複雑に見えますが、非常に簡単です。ここには、関連する4つのプロットがあります。

  1. 上のプロットは、分布のPDFとサイズ 1つのランダムサンプルを示しています。中央値より大きい値は白い点として表示されます。黒い点としての中央値より小さい値。総面積が統一されていることがわかっているため、垂直スケールは必要ありません。n

  2. 中央のプロットは、同じ分布の累積分布関数です。高さを使用して確率を示します。水平軸を最初のプロットと共有します。確率を表すため、垂直軸はからする必要があります。01

  3. 左側のプロットは横向きに読むことを意図しています。ベータ分布のPDFです。中央値を(その水平位置で測定するのではなく)中央の左右の領域で測定したときに、ボックス内の中央値がどのように変化するかを示します。図のように、このPDFからランダムなポイントを描画し、それらを元のCDFの対応する場所に水平の破線で接続しました。これは、ボリューム(左側で測定)を位置(上部、中央で測定)に変換する方法です。 、および下のグラフィック)。これらのポイントの1つは、実際には上のプロットに示されている中央値に対応しています。それを示すために垂直の実線を描画しました。(n/2+1,n/2+1)16

  4. 下のプロットは、水平位置で測定した中央値のサンプリング密度です これは、エリア(左側のプロット)を位置に変換することによって取得されます。変換式は、元のCDFの逆数によって与えられます。これは、単に逆CDFの定義です!(言い換えれば、CDFは位置を左側の領域に変換します。逆CDFは領域から位置に逆変換します。)左側のプロットのランダムポイントが下部のプロット内のランダムポイントに変換される様子を示す垂直破線をプロットしました。 。横に読んでから下に読むこのプロセスは、地域から位置へと進む方法を教えてくれます。

ましょう、元の分布のCDF(中間プロット)とすることベータ分布のCDF。中央値がある位置左側にある可能性を見つけるには、まずを使用してボックス内のの左側の領域を取得します。これは自体です。左側のベータ分布は、原子の半分がこの体積内にあり、を与える可能性を示しています。これは中央位置の CDFです。(下のプロットに示されているように)PDFを見つけるには、導関数を使用します。FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

ここで、はPDF(上のプロット)、はベータPDF(左のプロット)です。fg

これは、連続分布の中央値の分布の正確な公式です。(解釈に注意を払うことで、連続的であるかどうかにかかわらず、あらゆる分布に適用できます。)


漸近的な結果

とき非常に大きく、その中央にジャンプを持っていない、サンプルの中央値は、真の中央値の周りに密接に変化しなければならない分布の。 また、PDFの仮定周辺の連続する上式中ではその値からあまり変化しないであろうにより与えられる さらに、はその値から大きく変化することもありません。1次まで、nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

したがって、が大きくなるにつれて近似が改善され、n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

これは、ベータ分布の場所と規模の単なるシフトです。による再スケーリングは、その分散を(ゼロ以外の方がよい!)で除算します。ちなみに、ベータの分散はに非常に近いです。f(μ)f(μ)2(n/2+1,n/2+1)n/4

この分析は、デルタ方式のアプリケーションと見なすことができます。

最後に、ベータはが大きいはほぼ正常です。これを見るには多くの方法があります。おそらく最も簡単な方法は、PDFの付近の対数を調べることです。(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(定数およびは、総面積を1に正規化するだけです。) 3次まで、これは分散標準PDFのログと同じ (この引数は、PDFのログの代わりに特性またはキュムラント生成関数を使用することにより厳密になります。)CCx,1/(4n).

これをすべてまとめると、

  • サンプル中央値の分布には、約の分散があります。1/(4nf(μ)2)

  • が大きい場合はほぼ標準です。n

  • PDFが中央値で連続的かつ非ゼロである場合fμ.


私はその4番目の数字が好きです。Rを使用して作成しましたか?
EngrStudent 14年

@Engr Rおそらくを使用して、おそらくのようなものを作成できたかもしれませんlayoutが、実際にはMathematica 9で行われました。
whuber

1
「これは美しさのものです。
EngrStudent 14年

@whuberはBeta(1,1)以前のBeta(n / 2 + 1、n / 2 + 1)ではありませんか?例:ine.pt/revstat/pdf/rs080204.pdf
ティム

1
@Tim私は事前の参照の関連性を理解していませんが、「直感」セクションで特定されたベータ分布の正しい名前がベータ。私はそれがどこで起こるかを修正します(議論のいくつかの場所にあります)。(n/2+1,n/2+1)
whuber

18

@EngrStudent照明解答は、分布が連続的であり、離散である場合に異なる結果を予想する必要があることを示しています(サンプルの中央値の漸近分布が見かけ上正常に見えない「赤」グラフは、二項分布に対応します(3)、幾何(11)、超幾何(12)、負の二項(14)、ポアソン(18)、離散均一(22)。

そして確かにこれは事実です。分布が離散的な場合、事態は複雑になります。絶対連続ケースの証明を提供します。本質的には@Glen_bによって既に与えられた答えを詳述するだけで、その後、分布が離散したときに何が起こるかを少し説明し、ダイビングに興味のある人にも最近のリファレンスを提供しますに。

絶対連続分布は
IIDのコレクションを検討絶対連続確率変数分布関数(CDF)とと密度関数。定義ここで、インジケータ関数です。したがって、はベルヌーイrvであり、 {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

ましょう、固定のために定義され、これらIID Bernoullisのサンプルの平均値であるよう ことを意味する 中心極限定理が適用され、Yn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

つまり、経験的分布関数以外ではないことに注意してください。「デルタ法」を適用することにより、関心のあるポイントで非ゼロの微分を持つ連続微分可能関数を得ることができます。Yn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

ここで、ここで、は逆関数を示します。これは連続的かつ微分可能な関数であり( がそうであるため)、逆関数定理によりg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

これらの結果をに挿入して、デルタメソッドから派生した漸近結果を取得します。g

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

簡素化、

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

..固定。次に、母集団の(真の)中央値設定します。次に、られ、上記の一般的な結果は、対象の場合、xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

ただし、はサンプル中央値収束します。それの訳はFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

不等式の右側は収束し、最終的にとなる最小のがサンプルの中央値です。1/2xFX1/2

だから私たちは得る

n(m^m)dN(0,1[2fx(m)]2)
中央であります絶対連続分布のサンプル中央値の極限定理。

離散分布
(サンプルはネクタイが含まれている場合、または)分布が離散的であることが主張されている、したがってまた、中央のサンプル分位の「古典」の定義は、最初の場所で誤解を招く可能性が理論的な概念がなるように、変位値で測定しようとするものを測定するために使用されます。
いずれにせよ、この古典的な定義(誰もが知っている定義)では、サンプル中央値の漸近分布は非正規分布であり、離散分布であることがシミュレートされています。

サンプル変位値の代替定義は、として定義される「中間分布」関数の概念を使用することです。

Fmid(x)=P(Xx)12P(X=x)

中間分布関数の概念によるサンプル変位値の定義は、特殊なケースとして連続分布だけでなく、非連続分布もカバーできる一般化として見ることができます。

離散分布の場合、他の結果の中でも、この概念で定義されたサンプル中央値は、...精巧な見かけの分散を持つ漸近正規分布を持っていることがわかりました。

これらのほとんどは最近の結果です。参照は、Ma、Y.、MG、Genton、およびParzen、E。(2011)です。離散分布のサンプル分位点の漸近特性。統計数学研究所年報、63(2)、227-243。、議論や古い関連文献へのリンクを見つけることができます。


2
(+1)記事用。これは素晴らしい答えです。
アレックスウィリアムズ14

がサンプル中央値収束する理由を説明してください。FX1(F^n(m))m^

私は知っている分布で、私はどのようにサンプルの中央値を見ることができないに等しいF^n(m)FX(m)m^FX1(F^n(m))

1
@kasaこの問題について少し詳しく説明しました。
アレコスパパドプロス

これを再び表示して申し訳ありません。しかし、最終的にになる最小のは、母集団の中央値であり、サンプルの中央値ではありませんか。xFX(x)1/2

10

はい、そうです。中央値だけでなく、任意のサンプル分位数についても同様です。UCLAの教授であるTSファーガソン(このページはこちら)によって書かれたこの論文からコピーし ます。

ましょうは、分布関数、密度、平均および有限分散ます。ましょうとlet示す番目の分位ように、。密度が連続的で正であるとます。ましょうサンプル示す番目の分位を。それからX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

以下のため(中央値)、そしてあなたが中央値のためにCLTを持っています、p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

1
いいね 標本中央値の分散は、標本平均の分散ほど簡単に推定できないことに言及する価値があります。
マイケルM

@Alecos-この質問に対してどのように2つの回答を得ましたか?
EngrStudent

1
@EngrStudentシステムはそれを許可します。2番目の回答を本当に追加したいかどうかを確認するように要求するだけです。
アレコスパパドプロス

8

Glen_bが提供する分析的な回答が気に入っています。良い答えです。

写真が必要です。私は写真が好きです。

質問に対する答えの弾力性のある領域は次のとおりです。

  • 世界には多くのディストリビューションがあります。走行距離は異なる可能性があります。
  • 十分な意味はさまざまです。理論に対する反例の場合、「十分な」条件を満たすために単一の反例が必要になることがあります。二項不確実性を使用して低欠陥率を実証するには、数百または数千のサンプルが必要になる場合があります。

標準法線では、次のMatLabコードを使用しました。

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

そして、出力として次のプロットを得ました:

ここに画像の説明を入力してください

それでは、他の22個ほどの「組み込み」分布に対してこれを行わないでください。ただし、prob-plotを使用する場合を除きます(直線は非常に正規のような意味です)。

ここに画像の説明を入力してください

そして、そのソースコードは次のとおりです。

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

分析的証拠を見たとき、「理論的にはすべて適合している」と思うかもしれませんが、試してみると、「これがうまく機能しない多くの方法があります。価値」と考えられます。これにより、費用がかかるものに理論を適用することについてより慎重になりたいと思うかもしれません。

幸運を。


私は間違っていますか、中央値が正規分布していない分布は離散的ですか?
SeF
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.