回答:
実際、常に機能するわけではありません(任意のでの法線による二項累積分布関数の近似を常に改善するという意味で)。二項が0.5であれば、おそらく最も極端なテールを除いて、常に役立つと思います。が0.5からそれほど離れていない場合、がかなり大きい、遠尾を除いて一般に非常にうまく機能しますが、が0または1に近い場合、まったく役に立たない可能性があります(以下のポイント6を参照)
心に留めておくべきことの1つは(ほとんどの場合pmfsとpdfsが関係する図にもかかわらず)、近似しようとしているのはcdfであるということです。二項の累積分布関数と近似法線で何が起こっているかを考えると便利です(例:):
限界では、標準化された二項式の累積分布関数は標準法線になります(標準化はx軸のスケールに影響しますが、y軸には影響しません)。が大きくなるにつれて、二項累積分布関数のジャンプは通常の累積分布関数をより均等にまたぐ傾向があります。
ズームインして、上記の簡単な例でこれを見てみましょう:
近似法線は垂直ジャンプの中央付近を通過するため、限界では法線累積分布関数は局所的にほぼ線形であり(各ジャンプの上部の二項累積分布関数の進行と同様); 結果として、cdfはx + 1の近くの水平ステップを横切る傾向があります。。整数xでの二項累積分布関数の値F(x)を近似する場合、通常の累積分布関数はx+1に近い高さに達します。。
* Berry-Esseenを平均修正ベルヌーイ変数に適用した場合、Berry-Esseenの境界は、が1に近い場合、ごくわずかなゆらぎを許容します。およびxはμに近い-通常の累積分布関数は、そこのジャンプの中間付近で適度に通過する必要があります。そうしないと、累積分布関数の絶対差が、一方または他方で最良のベリーエッセン限界を超えるためです。これは、x+1からの距離に関連しています。通常の累積分布関数は、二項累積分布関数のステップ関数の水平部分を横切ることができます。
1.の動機を拡張して、計算するために二項累積分布関数の正規近似をどのように使用するかを考えてみましょう。例えば、n = 20 、p = 0.5 、k = 9(上の2番目の図を参照)。したがって、同じ平均値とsdを持つ法線はN (10 、(√。8.5から9.5の間の通常のcdfの変化によって、9でのcdfのジャンプを近似することに注意してください。
ボックスの下の領域は、間の法線で近似されます
(De Moivreの線に沿って、例えばここまたはここを参照)派生を使用して代数的にこのアプローチを動機づけて、通常の近似を導き出すことができます(ただし、De Moivreのアプローチよりも多少直接実行できます)。
それは基本的に、に対するスターリング近似の使用を含む、いくつかの近似を介して進行します。
[同様の「中間点規則」タイプの近似を使用して、連続修正を使用した密度による連続pmfsの他のそのような近似を動機付けることができますが、その近似を呼び出す意味がある場所に常に注意を払う必要があります]
歴史的注記:連続性補正は、1838年にアウグストゥスドゥモーガンで、ドモアブルの近似の改善として始まったようです。たとえば、Hald(2007)[1]を参照してください。Haldの説明から、彼の推論は上記の項目4の行に沿っていました(つまり、本質的に、x値を中心とする幅1の「ブロック」で確率スパイクを置き換えることでpmfを近似しようとするという点で)。
連続性補正が役に立たない状況の説明:
[1]:Hald、Anders(2007)、
「ベルヌーイからフィッシャーへのパラメトリック統計的推論の歴史、1713-1935」、
数学および物理科学の歴史のソースと研究、
Springer-Verlag New York