回帰に関する教科書を読んでいるときに、次の段落に遭遇しました。
線形回帰係数のベクトル()の最小二乗推定は、
これは、データ関数(予測子を定数と見なす)の関数として見ると、データの線形結合です。中心極限定理を使用すると、サンプルサイズが大きい場合、の分布がほぼ多変量正規になることが示されます。
テキストから間違いなく何かが欠けていますが、単一の値がどのように分布を持つことができるのか理解できませんか?本文で言及されている分布を得るために、複数の値はどのように生成されますか?
4
最小二乗法を使用する場合、は固定されているが不明であると想定します。ただし、は(ランダムな)データの関数であるため、分布があります。漸近的に分布は正規分布です。非漸近的に、個々の係数は分布します。
—
テイラー
が回帰設定で定数行列と見なされ、が(ベクトル値の)ランダム変数の実現であることを確認すると役立つ場合があります。ただし、CLTについてのそのビットは完全に正しくありません。巨大なデータセットでも実際には発生しない特定の構造を持つ依存しているか、自体が多変量正規であることに依存しています(ただし、その必要はありません) CLTを呼び出します)。
—
whuber
@テイラーしかし、「サンプルサイズが大きい」ということが唯一わかっている場合、Bの分布をどのようにして知ることができますか。
—
upabove
@Taylorベータバクターの個々のコンポーネントは、回帰モデルの誤差要素が平均0で分散が一定のガウスである場合にのみ分布します。非正規の場合、帰無仮説のもとでの分布を必ずしも知る必要はありませんが、それでも漸近的に正規である可能性があります。ただし、whuberが述べているように、中央制限の定理は加重平均であるため保持されない可能性があり、数個の項が合計を支配できるような方法で重みがサンプルサイズを変更しないことを知る必要があります。
—
Michael R. Chernick