線形回帰は正規分布をどのように使用しますか?


26

線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。

しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?

ここに画像の説明を入力してください


2
エラーのみが正規分布に従います(Xが正規である場合のYの条件付き確率を意味します)。これはおそらく、中心極限定理に関連する理由から伝統的なものです。ただし、正規分布を対称確率分布に置き換えて、最小二乗法を介して係数の同じ推定値を取得できます。違いは、残差標準誤差、適合度、仮定の検証方法です。
キアン

4
通常、仮説テスト、CI、PIなどの通常の仮定が推測されます。異なる仮定を行う場合、少なくとも小さなサンプルでは、​​それらは異なります。
Glen_b-モニカの復職

7
ちなみに、通常の線形回帰では、ダイアグラムは通常の曲線を斜めではなく垂直に描く必要があります。
グレン_b-モニカの復元

回答:


29

線形回帰自体は通常の(ガウス)仮定を必要とせず、推定器はそのような仮定を必要とせずに(線形最小二乗法で)計算でき、それなしで完全に意味をなします。

しかし、その後、統計学者として、この方法のいくつかの特性を理解したいと考えています。次のような質問への答えです。最小二乗推定量は何らかの意味で最適ですか?または、いくつかの代替の推定量でより良い結果を得ることができますか?次に、誤差項の正規分布の下で、この推定量が実際に最適であることを示すことができます。たとえば、それらは「最小分散の偏りがない」、または最尤です。そのようなことは、通常の仮定なしには証明できません。

また、信頼区間または仮説検定を構築(およびそのプロパティを分析)する場合は、通常の仮定を使用します。しかし、代わりに、ブートストラップなどの他の方法で信頼区間を構築できます。次に、通常の仮定を使用しませんが、残念ながら、それなしでは、最小二乗推定器以外の推定器を使用する必要があります。

もちろん、実際には、正規分布はせいぜい便利なフィクションです。それで、本当に重要な問題は、上記の結果を使用することを主張するために、どれほど正常に近い必要があるかということです。それは非常に難しい質問です!最適性の結果はロバストではないため、正規性からのわずかな逸脱でも最適性を損なう可能性があります。それは堅牢な方法を支持する議論です。その質問の別のタックについては、への私の答えを参照してくださいなぜ通常のエラーの代わりにtエラーを使用する必要かという。

別の関連する質問は、 なぜ回帰直線を推定するために残差の正規性が「非常に重要」なのかということです。

 EDIT

この回答により、コメントで大規模な議論が行われ、再び私の新しい質問が導かれました: 線形回帰:OLSとMLEのアイデンティティを与える非正規分布はありますか? これで最終的に(3つの)回答が得られ、非正規分布が最小二乗推定量につながる例を示します。


最小二乗誤差は通常の仮定と同等です。
ニールG

4
そのような矛盾はありません。例えば、ガウス・マルコフの定理は、線形の最小二乗がすべての線形推定量の中で最適である(最小の分散の意味で)ことを示します。最小二乗は、確率モデルとは無関係に定義できる数値手順です!次に、確率モデルを使用して、統計的観点からこの手順を分析します。
kjetil bハルヴォルセン

2
@NeilG正規のMLEは確かに最小二乗ですが、最小二乗が正規性の仮定を必要とすることを意味するものではありません。一方、正規性からの偏差が大きいと、最小二乗法の選択が不適切になる場合があります(すべての線形推定器が悪い場合)。
Glen_b -Reinstateモニカ

1
@NeilG私がそこに言ったことは決してLSと正規性の等価性を意味するものではありませんが、それらは明示的に等価であると言うので、2つのステートメントがトートロジーに近いとは本当に思いません。
Glen_b -Reinstateモニカ

1
@Neilあなたの声明が私が言ったことを実際に暗示していることを示すことができますか 本当に見えません。
Glen_b-モニカの復活

3

この議論は、残差が正規分布しているが、yが分布していない場合はどうでしょうか?この質問にうまく対処しています。

要するに、回帰問題の場合、応答がxの値を条件とする通常の条件であると仮定するだけです。独立変数または応答変数が独立している必要はありません。


1
  1. しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?

深い理由はなく、分布の仮定を自由に変更したり、GLMに移行したり、強力な回帰を行ったりすることができます。LM(正規分布)は、計算が簡単で、非常に安定しており、残差が実際には多かれ少なかれ正規であることが多いため、一般的です。

  1. 線形回帰はこの仮定をどのように使用しますか?

回帰として、線形モデル(=正規誤差を伴う回帰)は、与えられた分布の仮定の尤度を最適化するパラメーターを検索します。線形モデルの尤度の明示的な計算の例については、こちらをご覧ください。線形モデルの対数尤度をとると、二乗和に比例することがわかり、その最適化は非常に便利に計算できます。

  1. 可能な値が正規分布していない場合はどうなりますか?

異なる分布のモデルを近似する場合、次の教科書のステップは、異なる分布を提供する一般化線形モデル(GLM)、またはまだ正常であるが独立性を緩和する一般線形モデルになります。他の多くのオプションが可能です。外れ値の影響を軽減したいだけであれば、たとえばロバスト回帰を検討できます。


0

質問を再度検討した後、回帰のパラメーターについて何らかの推論を実行する場合を除き、正規分布を使用する理由はないと思います。そして、線形回帰を適用し、ノイズ項の分布を無視できます。


2
私にはあまり意味がありません。
SmallChess

0

1変数回帰のケースに固執させてください。詳細は同じですが、表記法は多変量回帰の場合により面倒です。任意のデータセットを考えるバツy 「最小二乗線」を見つけることができます y=βバツ+c 、それは見つける β そのため yβバツc2最小化されます。それは純粋な数学です。ただし、残差はη=yβバツ+c 共通の分散を持つ独立に同一に分布したガウス変数である場合、ポイント推定値の正確さの統計的推定値を取得できます β。特に、次の95%信頼区間を構築できます。β。結局、基礎となる(真の)分布からサンプリングしていると想定しているため、再度サンプリングした場合、おそらくわずかに異なる答えが得られることを期待する必要があります。特に、p値は与えられたものを観察する確率ですβ の真の値という仮説の下で βゼロです。そのため、統計は、ポイント推定がどれほど正確であるかに関する情報として生成されますβ。エラー項の統計的特性がない場合はどうすればよいですか?「卒業生」に謝罪-ブートストラップ一言。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.