あらすじ
サンプル中央値の中央極限定理で説明されている構造の一部を再発見しました。これは、サンプルの中央値の分析を示しています。(分析は、必要な変更を加えて、中央値だけでなく任意の分位数に明らかに適用されます)。したがって、大きなベータパラメータ(大きなサンプルに対応)について、質問で説明されている変換の下で正規分布が発生することは驚くことではありません。興味深いのは、小さなベータパラメータでも分布がどれほど正規分布に近いかということです。 それは説明に値します。
以下に分析をスケッチします。この投稿を妥当な長さに保つために、多くの示唆に富む手振りが含まれます。重要なアイデアを指摘するだけです。したがって、ここで結果を要約します。
がβに近い場合、すべてが対称です。これにより、変換された分布はすでに正規に見えます。αβ
フォームの関数もの小さな値について、最初の場所ではかなり正常に見えるα及びβ(いずれも超え設け1それらの比があまりなく、0または1に近い)。Φα−1(x)(1−Φ(x))β−1αβ101
変換された分布の見かけ上の正規性は、その密度が(2)の関数を掛けた正規密度で構成されるためです。
ようにとβの増加、正規性からの逸脱は、ログ密度テイラー級数における残りの項で測定することができます。次数nの項は、αとβの(n − 2 )/ 2乗に比例して減少します。これは、最終的に、十分に大きいαとβに対して、パワーn = 3以上のすべての項が比較的小さくなり、2次のみが残ることを意味します。これは、正規分布の対数密度です。αβn(n−2)/2αβαβn=3
全体として、これらの動作は、小さなとβであっても、iid Normalサンプルの非極端な変位値がほぼ正常に見える理由をうまく説明しています。αβ
分析
一般化することが有用である可能性があるので、聞かせて可能任意の我々が考えているものの、分布関数F = Φ。FF=Φ
定義により、ベータ(α 、β )変数の密度関数は、g(y)(α,β)
yα−1(1−y)β−1dy.
まかせ、確率積分は、の変換であり、X及び書き込みFの誘導体のためにFがいること、それは即時であり、Xは、に比例する密度を有していますy=F(x)xfFx
G(x;α,β)=F(x)α−1(1−F(x))β−1f(x)dx.
これは強く単峰性の分布(ベータ)の単調変換であるため、がかなり奇妙でない限り、変換された分布も単峰性になります。それがどれほど標準に近いかを調べるために、その密度の対数を調べてみましょう。F
logG(x;α,β)=(α−1)logF(x)+(β−1)log(1−F(x))+logf(x)+C(1)
ここで、は正規化の無関係な定数です。C
テイラー級数のの成分を展開して、値x 0(モードに近い)の周りに3を並べます。例えば、我々は拡大書き込むことができ、ログFなどをlogG(x;α,β)x0logF
logF(x)=cF0+cF1(x−x0)+cF2(x−x0)2+cF3h3
いくつかのためのを持ちます| h | ≤ | x − x 0 | 。log (1 − F )とlog fにも同様の表記を使用します。 h|h|≤|x−x0|log(1−F)logf
線形項
の線形項はそれにより(1)
g1(α,β)=(α−1)cF1+(β−1)c1−F1+cf1.
がGのモードのとき(x0、この式はゼロです。係数の連続関数であるので、そのノート X 0として、 αおよび βが変化する、モード X 0があまりにも連続的に変化します。さらに、 αと βが十分に大きくなると、 c f 1項は比較的重要ではなくなります。我々は、制限を勉強することを目指す場合は α → ∞と β → ∞のための α :β一定の割合で滞在 γG(;α,β)x0αβx0αβcf1α→∞β→∞ α:βγ、したがって、一度だけすべての基点を選択できます。x0
γcF1+c1−F1=0.
良いケースは、、全体でα = βで、Fが0に関して対称である場合です。その場合には明らかであるX 0 = F (0 )= 1 / 2。γ=1α=βF0x0=F(0)=1/2
(a)極限では、テイラー級数の一次項が消滅し、(b)今説明した特別な場合では、一次項が常にゼロになる方法を実現しました。
二次項
これらは合計です
g2(α,β)=(α−1)cF2+(β−1)c1−F2+cf2.
その二次的な用語である正規分布と比較、我々は推定してもよい- 1 /(2 gで2(α 、β ))およその分散であり、G。xをその平方根で再スケーリングしてGを標準化しましょう。詳細は本当に必要ありません。この再スケーリングが(xの係数を乗算することを理解することで十分です。−(1/2)(x−x0)2/σ2−1/(2g2(α,β))GGxによるテイラー展開における(- 1 /(2 gで2(α 、β )))N / 2。(x−x0)n(−1/(2g2(α,β)))n/2.
剰余項
ここにパンチラインがあります:テイラー展開の次数の項は、記法によれば、n
gn(α,β)=(α−1)cFn+(β−1)c1−Fn+cfn.
標準化後、
g′n(α,β)=gn(α,β)(−2g2(α,β))n/2).
両方のは、αとβのアフィン結合です。分母をn / 2乗することにより、正味の動作はαおよびβのそれぞれで次数- (n - 2 )/ 2になります。これらのパラメーターが大きくなると、2番目以降のテイラー展開の各項が漸近的にゼロに減少します。 特に、3次剰余項は任意に小さくなります。giαβn/2−(n−2)/2αβ
ケース正常ですF
この場合、f (x )は純粋に2次であるため、が標準Normalの場合、剰余項の消失は特に高速です。剰余項には何も寄与しません。したがって、の偏差G正常からは、単にとの偏差に依存F α - 1(1 - F )β - 1と正常。Ff(x)GFα−1(1 − F)β− 1
この偏差は、とβが小さい場合でもかなり小さくなります。例として、α = βの場合を考えます。 Gは対称であり、次数3の項は完全に消滅します。剰余は、x − x 0 = xの次数4です。 αβα = βG4x − x0= x
以下は、小さな値で標準化された4次項がどのように変化するかを示すプロットです。α > 1
値から始まりのためにα = β = 1(その後分布は明らかに正常であるため、Φ - 1ベータもので均一な分布に適用(1 、1 )であり、標準正規分布を与えます)。急速に増加しますが、0.008未満で終了します。これは実質的にゼロと見分けがつきません。その後、漸近的な相互減衰が始まり、αが2を超えて増加するにつれて、分布は常に正規に近づきます。0α = β= 1Φ− 1(1 、1 )0.008α2