回答:
正規分布していないエラーがあるときに、重要性ステートメントの有効性が損なわれるのはなぜですか?信頼区間が広すぎたり狭すぎたりするのはなぜですか?
信頼区間は、分子と分母がt統計で分布する方法に基づいています。
正規データでは、t統計量の分子は正規分布を持ち、分母の二乗(分散)の分布は、カイ2乗分布の特定の倍数です。分子と分母も独立している場合(観測自体が独立している場合、通常のデータの場合にのみ当てはまります)、統計全体にt分布があります。
データが他の分布からのものである場合、統計にはt分布がありません。たとえば、裾が重い場合、t分布は少し裾が小さくなる傾向があります(外側の観測は分子よりも分母に影響を与えます)。ここに例があります。どちらの場合も、ヒストグラムは10,000回帰の場合です。
95%のt間隔(サンプルの勾配の95%を含む必要があります)は、-2.048から2.048までです。通常のデータの場合、実際には10000のサンプル勾配の95.15%が含まれていました。歪んだデータには99.91%が含まれます。