正規分布よりも裾が重いt分布


10

私の講義ノートには、

t分布は通常のように見えますが、裾が少し重いです。

なぜそれが正常に見えるのか理解しています(中心極限定理のため)。しかし、正規分布よりも裾が重いことを数学的に証明する方法と、正規分布よりもどの程度重いかを測定する方法があるかどうかを理解するのに苦労しています。

回答:


12

最初にすべきことは、「より重い尾」によって私たちが意味することを形式化することです。両方の分布を同じ位置とスケール(標準偏差など)に標準化した後、密度が極端にどの程度高いかを概念的に見ることができます。

ここに画像の説明を入力してください
この回答から、これはあなたの質問にもある程度関連しています

[この場合、最終的にスケーリングは重要ではありません。非常に異なるスケールを使用しても、tは通常よりも「重く」なります。通常は常に最終的に低くなります]

ただし、この定義は、この特定の比較では問題なく機能しますが、あまり一般化されていません。

より一般的には、こちらのwhuberの回答の方がはるかに適切な定義です。したがって、がよりも重い場合、が十分に大きくなると(すべての一部の)、となります。ここで、で、は重い右側にテールがあり、反対側にも同様の明確な定義があります)。YXtt>t0SY(t)>SX(t)S=1FF

ここに画像の説明を入力してください

ここでは、対数スケールと法線の分位数スケールで表示されているため、詳細を確認できます。

ここに画像の説明を入力してください

したがって、より重い裾の「証明」には、cdfの比較と、t-cdfの上端が常に法線よりも上にあり、t-cdfの下端が常に法線よりも下にあることを示すことが含まれます。

この場合、簡単なことは密度を比較し、cdf(/ survivor関数)の対応する相対位置がそれに続く必要があることを示すことです。

たとえば、あなたがそれを論じることができるなら(ある与えられた)ν

x2(ν+1)log(1+x2ν)>2log(k)

必要な定数のために(の機能)、すべてのためいくつかの、ために重い尾を確立することが可能であろうも大きな面で定義の(またはより大きな上左尾)。kνx>x0tν1FF

(このフォームは、密度の必要な関係が成り立つ場合、密度の対数の違いから従います)

[実際には、任意の (関連する密度正規化定数から取得する必要がある特定の1つだけではない)でも表示できるため、結果は必要な保持される必要があります。]kk


1
のグラフ(およびおそらくを少し拡張)は、より重い裾をより明確に示し、より高い自由度で機能する可能性がありますlogS(x)x
Henry

1
@ヘンリー私はそのようなプロットを生成しましたが、それがどれだけの付加価値をもたらすのかわからなかったので、含めませんでした。私はそれを置くことについて考えます。
Glen_b -Reinstateモニカ

1
@ヘンリー私はプロットを含めました。
Glen_b-2015

2

違いを確認する1つの方法は、モーメントE{xn}.

「より重い」テールは、分散が同じである場合、偶数のパワーモーメント(パワー4、6、8)の高い値を意味します。特に、4次モーメント(ゼロ付近)は尖度と呼ばれ、正確な意味で尾の重さを比較します。

詳細については、ウィキペディアを参照してください(https://en.wikipedia.org/wiki/Kurtosis


1
用もと-distribution又は自由度としながら尖度は、無限であるあなたが尖度を計算することができないので、自由度標準偏差が無限大であり、で自由度あなたも平均値を計算したりすることができません番目の瞬間。3 4 2 1 4t34214
Henry

3
@ヘンリーそれにもかかわらず、このアイデアは良いです。周りのスチューデント分布のCDFを展開すると、漸近的に比例していることがわかります。したがって、未満のすべての絶対モーメントは存在し、より大きいすべての絶対モーメントは発散します。正規分布では、すべての絶対モーメントが存在します。これにより、すべてのスチューデント分布と正規分布の裾の明確な順序が提供されます。実際、パラメーターは、尾の重さを測定する方法についての元の質問に対する1つの回答を提供します。+ X - ν ν ν T νt(ν)+xνννtν
whuber

2

これは、生存関数に基づく正式な証明です。ウィキペディアに触発された次の「重い尾」の定義を使用します。

確率変数生存機能付きランダム変数より重い尾部を有する生存機能付き IFF YSy(t)XSx(t)

limtSy(t)Sx(t)=

平均がゼロ、自由度が、スケールパラメーターがスチューデントのtとして分布する確率変数考えます。これを確率変数と比較します。両方の変数について、生存関数は微分可能です。したがって、 YνaXN(0,σ2)

limtSy(t)Sx(t)=limtfy(t)fx(t)=explimt(logfy(t)logfx(t))=explimt(ν+12log(1+t2νa2)(12σ2t2)+C)=exp(limtν+12log(1+t2νa2)(12σ2t2)+C)=exp(limt12σ2t2ν+12log(1+t2νa2)+C)=exp(12limua2σ2u(ν+1)log(1+uν)+C)=exp(12limuu(a2σ2(ν+1)log(1+uν)u+Cu))
ここで、置き換えました。は定数であることに注意してくださいおよび したがって、代数極限定理により、 u=t2/a20<a2/σ2<limuC/u=0
limu(ν+1)log(1+uν)u=limu(ν+1)(1)(1+uν)(ν)=0
limtSy(t)Sx(t)=exp(12limuu(a2σ2(0)+(0)))=

重要なことに、結果は、、および任意の(有限)値に当てはまるため、分布の分散が正規よりも小さいが、裾が重い場合があります。aσ2ν


1
重いテールのこの「定義」は常に許容できるわけではないことに注意してください。たとえば、この定義では、N(0,1)分布は、.9999 * U(-1,1)+ .0001 * U(-1000、1000)分布よりも裾が重いですが、後者の分布はサポートに制限があるにもかかわらず、平均から最大175標準偏差の時折の値。もちろん、N(0,1)もこのような値を生成しますが、実際の目的に関連すると見なすことができる確率をはるかに下回ります。
Peter Westfall 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.