CLTを確率変数の合計に適用することは良い近似ですか?


7

を使用して、平均と分散\ sigma ^ 2、正規分布を意味するために\ mathcal {N}が追加された分布を意味します。(μ,σ2)μσ2N

X1,,Xniid(μ,σ2)\ sigma ^ 2 <\ inftyと仮定しますσ2<。中心極限定理(CLT)の公式声明では、

X¯nμσ/ndN(0,1).
論じていますここでステートメントこと
X¯nN(μ,σ2/n)
分布の収束約ステートメントではなく、むしろ、近似値です。この近似は、n \ geq 30の場合、かなりまともな近似であると頻繁に引用されn30ます。

理論的には、さらに一歩進んで、

(1)i=1nXiN(nμ,nσ2)
は、 CLTからのおおよその声明。

(1) 実際のCLTではないことを考えると、この近似はどの程度うまく機能するのでしょうか。それは一般的にうまくいきますか?正直なところ、特に歪んだディストリビューションの場合、私はこれについて心配します。

これが広すぎる場合は、これを閉じることができます。


2
これは非常に巧妙な質問です。でも、答えはすでに出ているかもしれません。次の検索を試してください:stats.stackexchange.com/search?q=esseen
whuber

2
収束率に関する情報については、Berry-Esseenの定理を確認することをお勧めします。良い近似という用語は主観的です。正確にするためには、近似を「良好」にするために必要な近似分布と標準法線の間の最大距離を定義する必要があります。
Michael R. Chernick

1
は(それを説明する追加のテキストがあっても)十分に正確な表記法ではないと思います。より適切な表記法は、「 is」であり、これは意味すると理解されていは分布でに収束します。X¯nN(μ,σ2/n)X¯nAN(μ,σ2/n)n(X¯nμ)/σN(0,1)
Zhanxiong

1
@Zhanxiong:私がより馴染みのある表記はで、は「ほぼ分散」を意味します。X¯n˙N(μ,σ2/n)˙
クリフAB

1
経験的に、近似の品質は基になる分布に依存します。直感的に、近似が良好例えば対称と連続RVSのために働く、あなたがはるかに小さくなければならない場合がありするためのまともな正規近似取得するに比べ。XinXBin(1,0.5)XBin(1,0.01)
Zhanxiong

回答:


5

逆に言うと、Zスコアが本当に標準正規分布である場合、その後の近似は正確になります。エラーの程度は、Zスコア分布と標準のガウス分布の間の距離の尺度に応じて大まかに増減するはずです。

CDFの空間では、KS距離をメトリックとして使用できます。サンプルを収集し、これらのサンプルのZスコアの(未知の)真のサンプルCDFのKS距離がます。。NNϵNmaxz|FZn(z)FΦ(z)|=ϵN

ここで、からへの移行では、はスケールと位置のシフトのみを含みます(つまり、引数の線形変換)。を実際の母集団と同じ平均および分散の正規確率変数の合計に取得する場合も同様です。実際、両方の変数に対してまったく同じ変換を行うため、をマッピングし、 -私たちは同じ変換を各ディストリビューションの引数を施すているので、我々は垂直距離を保持します。FZn(z)FSn(s)Sn=1NXiLzFZn(z)FΦ(z)FZn(z)FZn(L1z)FΦ

したがって、のKS距離は、と同じレートでゼロに収束します。ただし、は実際の分布関数に収束するのに対し、は制限分布がありません(基本的にであり、分布ではありません)。FSnFZnFSnF(x)=0.5FZn

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.