線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。
しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?
線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。
しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?
回答:
線形回帰自体は通常の(ガウス)仮定を必要とせず、推定器はそのような仮定を必要とせずに(線形最小二乗法で)計算でき、それなしで完全に意味をなします。
しかし、その後、統計学者として、この方法のいくつかの特性を理解したいと考えています。次のような質問への答えです。最小二乗推定量は何らかの意味で最適ですか?または、いくつかの代替の推定量でより良い結果を得ることができますか?次に、誤差項の正規分布の下で、この推定量が実際に最適であることを示すことができます。たとえば、それらは「最小分散の偏りがない」、または最尤です。そのようなことは、通常の仮定なしには証明できません。
また、信頼区間または仮説検定を構築(およびそのプロパティを分析)する場合は、通常の仮定を使用します。しかし、代わりに、ブートストラップなどの他の方法で信頼区間を構築できます。次に、通常の仮定を使用しませんが、残念ながら、それなしでは、最小二乗推定器以外の推定器を使用する必要があります。
もちろん、実際には、正規分布はせいぜい便利なフィクションです。それで、本当に重要な問題は、上記の結果を使用することを主張するために、どれほど正常に近い必要があるかということです。それは非常に難しい質問です!最適性の結果はロバストではないため、正規性からのわずかな逸脱でも最適性を損なう可能性があります。それは堅牢な方法を支持する議論です。その質問の別のタックについては、への私の答えを参照してくださいなぜ通常のエラーの代わりにtエラーを使用する必要かという。
別の関連する質問は、 なぜ回帰直線を推定するために残差の正規性が「非常に重要」なのかということです。
EDIT
この回答により、コメントで大規模な議論が行われ、再び私の新しい質問が導かれました: 線形回帰:OLSとMLEのアイデンティティを与える非正規分布はありますか? これで最終的に(3つの)回答が得られ、非正規分布が最小二乗推定量につながる例を示します。
深い理由はなく、分布の仮定を自由に変更したり、GLMに移行したり、強力な回帰を行ったりすることができます。LM(正規分布)は、計算が簡単で、非常に安定しており、残差が実際には多かれ少なかれ正規であることが多いため、一般的です。
回帰として、線形モデル(=正規誤差を伴う回帰)は、与えられた分布の仮定の尤度を最適化するパラメーターを検索します。線形モデルの尤度の明示的な計算の例については、こちらをご覧ください。線形モデルの対数尤度をとると、二乗和に比例することがわかり、その最適化は非常に便利に計算できます。
異なる分布のモデルを近似する場合、次の教科書のステップは、異なる分布を提供する一般化線形モデル(GLM)、またはまだ正常であるが独立性を緩和する一般線形モデルになります。他の多くのオプションが可能です。外れ値の影響を軽減したいだけであれば、たとえばロバスト回帰を検討できます。
質問を再度検討した後、回帰のパラメーターについて何らかの推論を実行する場合を除き、正規分布を使用する理由はないと思います。そして、線形回帰を適用し、ノイズ項の分布を無視できます。
1変数回帰のケースに固執させてください。詳細は同じですが、表記法は多変量回帰の場合により面倒です。任意のデータセットを考える 「最小二乗線」を見つけることができます 、それは見つける そのため 最小化されます。それは純粋な数学です。ただし、残差は 共通の分散を持つ独立に同一に分布したガウス変数である場合、ポイント推定値の正確さの統計的推定値を取得できます 。特に、次の95%信頼区間を構築できます。。結局、基礎となる(真の)分布からサンプリングしていると想定しているため、再度サンプリングした場合、おそらくわずかに異なる答えが得られることを期待する必要があります。特に、p値は与えられたものを観察する確率です の真の値という仮説の下で ゼロです。そのため、統計は、ポイント推定がどれほど正確であるかに関する情報として生成されます。エラー項の統計的特性がない場合はどうすればよいですか?「卒業生」に謝罪-ブートストラップ一言。