サンプルサイズが大きくなると、t分布がより正規になるのはなぜですか？

ウィキペディアによると、サンプルが正規分布母集団からのiid観測である場合、t分布はt値のサンプリング分布であることを理解しています。ただし、t分布の形状がファットテールからほぼ完全に正常に変化する理由を直感的に理解できません。

正規分布からサンプリングしている場合、大きなサンプルを取得した場合、その分布に似ていますが、なぜそれが太い尾の形で始まるのかわかりません。

normal-distribution t-distribution

— user1205901-モニカの回復
ソース

直感的な説明をしようと思います。

t統計*には分子と分母があります。たとえば、1つのサンプルt検定の統計は次のとおりです。

\frac{\bar{バツ} - μ_{0}}{s / \sqrt{n}}

$\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$

*（いくつかありますが、この議論はあなたが尋ねているものをカバーするのに十分なほど一般的であるべきです）

仮定の下では、分子の平均分布は0であり、いくつかの未知の標準偏差を持つ正規分布になります。

同じ仮定のセットでは、分母は分子の分布の標準偏差の推定値です（分子の統計の標準誤差）。分子とは無関係です。その平方は、自由度（t分布のdfでもある）回で除したカイ二乗確率変数です。。 $\sigma_\text{numerator}$

自由度が小さい場合、分母はかなり右に傾く傾向があります。平均よりも小さい可能性が高く、かなり小さい可能性が比較的高いです。同時に、平均よりもはるかに大きくなる可能性もあります。

正規性の仮定の下では、分子と分母は独立しています。したがって、このt統計の分布からランダムに描画する場合、平均1前後の右スキュー分布から2番目にランダムに選択した値で割った正規乱数を取得します。

*通常の用語に関係なく

分母上にあるため、分母の分布の小さな値は非常に大きなt値を生成します。分母の右スキューは、t統計量をヘビーテールにします。分母に同じ標準偏差より鋭く尖っ通常よりt分布させる分布の右尾、Tは。

ただし、自由度が大きくなると、分布ははるかに正規に見え、その平均をはるかに上回る「タイト」になります。

ここに画像の説明を入力してください

そのため、分子の分布の形状に対する分母による除算の効果は、自由度が増加するにつれて減少します。

最終的に-Slutskyの定理が示唆するように、分母の効果は定数で除算するようになり、t統計量の分布は非常に正規に近くなります。

分母の逆数の観点から考慮

whuberは、分母の逆数を見る方がより照明になるかもしれないとコメントで示唆しました。つまり、分子（通常）と分母の逆数（右スキュー）の積としてt統計を書くことができます。

たとえば、上記のone-sample-t統計は次のようになります。

\sqrt{n} （ \bar{バツ} - μ_{0} ） \cdot 1 / s

${\sqrt{n}(\bar{x}-\mu_0)}\cdot{1/s}$

次に、元の母標準偏差を考えます、。次のように、乗算と除算ができます。 $X_i$ $\sigma_x$

\sqrt{n} （ \bar{バツ} - μ_{0} ） / σ_{バツ} \cdot σ_{バツ} / s

${\sqrt{n}(\bar{x}-\mu_0)/\sigma_x}\cdot{\sigma_x/s}$

最初の項は標準の標準です。次に、2番目の項（スケーリングされた逆カイ2乗確率変数の平方根）は、その標準法線を1よりも大きいまたは小さい値でスケーリングします。

正規性の仮定の下では、製品の2つの用語は独立しています。したがって、このt統計の分布からランダムに抽出すると、正規分布の乱数（製品の最初の項）に2番目のランダムに選択された値（正規項に関係なく）があります。通常は約1です。

dfが大きい場合、値は1に非常に近くなる傾向がありますが、dfが小さい場合、かなりゆがみ、スプレッドが大きくなります。このスケーリング係数の大きな右テールによりテールが非常に太くなります。

ここに画像の説明を入力してください

— Glen_b -Reinstate Monica
ソース

ありがとう！これは多くを明らかにしましたが、私はまだ「その平方は自由度（t分布のdfでもあります）で割ったカイ二乗確率変数である[分子の標準偏差] 「。知っておくと便利だからというだけで言及しましたか、それとも私の質問への答えに直接関係するものですか？あなたの図に描かれているのは、分母の二乗の分布ではなく、分母の分布であることを理解しています。

— user1205901-モニカの復元14年

統計量の分布は、dfのカイ2乗の平方根でなくても、通常よりも裾が大きくなります。その意味では、答えを直接変更して除外することはありません。しかし、少なくとも、ダイアグラム内のスケーリングされたカイ分布がどこから来たかの説明として役立ちます。

— グレン_b-モニカの復活14

サンプルの標準偏差の逆数に基づいてこの分析を行うことは、もう少し明らかになると思います。それは、サンプルSDがサンプル平均から独立しているという議論（さらに強調と説明から得られる重要なアイデア、IMHO）と相まって、サンプルSDによるサンプル平均の除算がそうでなければ正規分布になるものを広げます。（これはもちろん、ゴセットの発見の全体的なポイントでした。）

— whuber

@whuber私は相互の観点からそれを議論するセクションを追加しましたが、元の議論も保持しました（私はより直接的に思えますが、多くの人々が相互の観点からより多くを得るかもしれないことを感謝します）。独立性についても少し追加します

— Glen_b -Reinstate Monica 14

s / \sqrt{n}

$s/\sqrt{n}$

σ / \sqrt{n}

$\sigma/\sqrt{n}$

s / σ

$s/\sigma$

σ / s

$\sigma/s$

σ

$\sigma$

@Glen_bは、サンプルサイズが増加するにつれてt統計量がより正常に見える理由について直感を示しました。ここで、統計の分布を既に取得している場合について、もう少し技術的な説明をします。

$n-1$ $n$

\frac{{（ 1 + \frac{{バツ}^{2}}{n - 1} ）}^{- n / 2}}{\sqrt{n - 1} B （ \frac{n - 1}{2} 、 \frac{1}{2} ）} 。

$\frac{\left(1+\frac{x^2}{n-1}\right)^{-n/2}}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}.$

それを示すことは可能です

\frac{1}{\sqrt{n - 1} B （ \frac{n - 1}{2} 、 \frac{1}{2} ）} \to \frac{1}{\sqrt{2 π}} 、

$\frac{1}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}\rightarrow \frac{1}{\sqrt{2\pi}},$

そして

{（ 1 + \frac{{バツ}^{2}}{n - 1} ）}^{- n / 2} \to \exp （ - {バツ}^{2} / 2 ） 、

$\left(1+\frac{x^2}{n-1}\right)^{-n/2}\rightarrow \exp(-x^2/2),$

$n\rightarrow \infty$

— クルーガー
ソース

1 / n

$1/n$

(1 + (x / n)^{2})^{- 1}

$(1 + (x/n)^2)^{-1}$

t_{n}

$t_n$ 自由度？シーケンスが「それが行う太った尾の形から始まる」理由を知りたい。

— whuber

- n

$-n$

n

$n$

初心者としての直感を助けてくれるものを共有したかっただけです（ただし、他の答えよりも厳密ではありません）。

$Z, Z_1, ..., Z_n$

\frac{Z}{\sqrt{\frac{Z_{1}^{2} + 。 。 。 + Z_{n}^{2}}{n}}}

$\frac{Z}{\sqrt{\frac{Z_1^2+...+Z_n^2}{n}}}$

$n$

$n$ $1$ $Z$ $n$

$E[Z^2] = 1$ $n$ $Z_i^2$ $n$ $Z_i^2$

$n$ $\frac{Z}{\sqrt{1}} = Z$

— HJ_beginner
ソース