連続性補正(たとえば、二項分布の正規近似)が機能するのはなぜですか?


24

正規近似の二項分布に対する連続性補正がどのように導出されたかをよりよく理解したいと思います

1/2を追加する必要があることを決定するために、どの方法が使用されました(別の数値ではないのですか?)。任意の説明(または以外示唆読み取りへのリンク、このことは、理解されるであろう)。

回答:


29
  1. 実際、常に機能するわけではありません(任意のでの法線による二項累積分布関数の近似を常に改善するという意味で)。二項が0.5であれば、おそらく最も極端なテールを除いて、常に役立つと思います。が0.5からそれほど離れていない場合、がかなり大きい、遠尾を除いて一般に非常にうまく機能しますが、が0または1に近い場合、まったく役に立たない可能性があります(以下のポイント6を参照)xppnp

  2. 心に留めておくべきことの1つは(ほとんどの場合pmfsとpdfsが関係する図にもかかわらず)、近似しようとしているのはcdfであるということです。二項の累積分布関数と近似法線で何が起こっているかを考えると便利です(例:n=20,p=0.5):

    ここに画像の説明を入力してください

    限界では、標準化された二項式の累積分布関数は標準法線になります(標準化はx軸のスケールに影響しますが、y軸には影響しません)。nが大きくなるにつれて、二項累積分布関数のジャンプは通常の累積分布関数をより均等にまたぐ傾向があります。

    ズームインして、上記の簡単な例でこれを見てみましょう:

    ここに画像の説明を入力してください

    近似法線は垂直ジャンプの中央付近を通過するため、限界では法線累積分布関数は局所的にほぼ線形であり(各ジャンプの上部の二項累積分布関数の進行と同様); 結果として、cdfはx + 1の近くの水平ステップを横切る傾向があります。。整数xでの二項累積分布関数の値Fxを近似する場合、通常の累積分布関数はx+1に近い高さに達します。x+12F(x)xx+12

    * Berry-Esseenを平均修正ベルヌーイ変数に適用した場合、Berry-Esseenの境界は、1に近い場合、ごくわずかなゆらぎを許容します。pおよびxμに近い-通常の累積分布関数は、そこのジャンプの中間付近で適度に通過する必要があります。そうしないと、累積分布関数の絶対差が、一方または他方で最良のベリーエッセン限界を超えるためです。これは、x+1からの距離に関連しています。12バツμ通常の累積分布関数は、二項累積分布関数のステップ関数の水平部分を横切ることができます。バツ+12

  3. 1.の動機を拡張して、計算するために二項累積分布関数の正規近似をどのように使用するかを考えてみましょう。例えば、n = 20 p = 0.5 k = 9(上の2番目の図を参照)。したがって、同じ平均値とsdを持つ法線はN 10 Pバツ=kn=20p=0.5k=9。8.5から9.5の間の通常のcdfの変化によって、9でのcdfのジャンプを近似することに注意してください。N1052

ここに画像の説明を入力してください

  1. pバツバツpバツ

    ![ここに画像の説明を入力してください

    ボックスの下の領域は、間の法線で近似されますバツ12バツ+1212

    (De Moivreの線に沿って、例えばここまたはここを参照)派生を使用して代数的にこのアプローチを動機づけて、通常の近似を導き出すことができます(ただし、De Moivreのアプローチよりも多少直接実行できます)。

    それは基本的に、に対するスターリング近似の使用を含む、いくつかの近似を介して進行します。nバツログ1+バツバツバツ2/2

    Pバツ=バツ12πnp1pexpバツnp22np1p

    μ=npσ2=np1pバツバツ

    YNnpnp1pFy+12Fy12=y12y+12fYあなたはdあなたはfYyfYバツPバツ=バツPバツ=バツFバツ+12Fバツ12

    [同様の「中間点規則」タイプの近似を使用して、連続修正を使用した密度による連続pmfsの他のそのような近似を動機付けることができますが、その近似を呼び出す意味がある場所に常に注意を払う必要があります]

  2. 歴史的注記:連続性補正は、1838年にアウグストゥスドゥモーガンで、ドモアブルの近似の改善として始まったようです。たとえば、Hald(2007)[1]を参照してください。Haldの説明から、彼の推論は上記の項目4の行に沿っていました(つまり、本質的に、x値を中心とする幅1の「ブロック」で確率スパイクを置き換えることでpmfを近似しようとするという点で)。

  3. 連続性補正が役に立たない状況の説明:

    ここに画像の説明を入力してください

    バツYFバツバツFYバツ+12pバツFYバツ+12FYバツ12FバツバツFYバツpバツFYバツFYバツ1

    [1]:Hald、Anders(2007)、
    「ベルヌーイからフィッシャーへのパラメトリック統計的推論の歴史、1713-1935」、
    数学および物理科学の歴史のソースと研究、
    Springer-Verlag New York


1

この要因は、連続分布を離散分布と比較しているという事実から生じると考えています。したがって、連続分布における各離散値の意味を翻訳する必要があります。別の値を選択することもできますが、これは与えられた整数について不均衡になります。(つまり、5よりも7の方が6になる確率に重みを付けます。)

ここで役立つリンクを見つけました:link

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.