線形回帰で正規性の仮定をする理由

14

私の質問は非常に簡単です：線形回帰の仮定で誤差項が従う分布として正規を選択するのはなぜですか？ユニフォーム、T、その他のようなものを選択しないのはなぜですか？

— マスター市
ソース

5

通常の仮定を選択しません。たまたま、エラーが正規である場合、モデル係数は正確に正規分布に従い、正確なF検定を使用してそれらについての仮説をテストすることができます。

— AdamO

10

数学は、人々が現代のコンピューターの前に使用できるほど簡単に計算できるためです。

— ナット

1

@AdamOわかりません。あなたが私たちがそれを選んだ理由を概説しただけです。

— JiK

2

@JiK分布を選択できれば、統計はまったく必要ありません。全世界は確率です。

— AdamO

1

@AdamO統計的推論を行っているときにモデルの仮定を選択できるため、統計がないことを意味するとは思わない。

— JiK

29

他のエラー分布を選択します。多くの場合、かなり簡単に行うことができます。最尤推定を使用している場合、これにより損失関数が変更されます。これは確かに実際に行われます。

ラプラス（二重指数誤差）は、最小絶対偏差回帰/ $L_1$ 回帰（サイト上の多数の投稿で議論されています）に対応しています。Tエラーのある回帰は時折使用されますが（場合によっては、総誤差に対してより堅牢であるため）、不利な点があります-可能性（したがって損失のマイナス）には複数のモードがあります。

均一な誤差が対応 $L_\infty$ 損失（最大偏差を最小化します）。このような回帰は、チェビシェフ近似と呼ばれることもあります（ただし、本質的に同じ名前の別のものがあるので注意してください）。繰り返しますが、これは時々行われます（実際に線形計画法または他のアルゴリズムを使用することができますが、単純な回帰および一定の広がりを持つ境界誤差を伴う小さなデータセットの場合、フィットはしばしばプロット上で直接手で見つけるのに十分簡単です） ;実際、 $L_\infty$ と $L_1$ の回帰の問題はいくつかの問題のために、時には便利ショートカットをもたらすことができるお互いの双対）です。

実際、手作業でデータに適合させた「均一誤差」モデルの例を次に示します。

4つのマークされたポイントがアクティブセットに含まれる唯一の候補であることを（データに向かって直定規をスライドさせることにより）簡単に識別できます。それらのうち3つが実際にアクティブセットを形成します（そして、少しのチェックで、どの3つがすべてのデータを含む最も狭い帯域につながるかがすぐに識別されます）。そのバンドの中心の線（赤でマーク）は、その線の最尤推定値です。

他の多くのモデル選択が可能であり、実際にはかなりの数が使用されています。

密度が加法的な独立した一定の広がりのエラーがある場合は、 $k\,\exp(-c.g(\varepsilon))$ 、尤度を最大化することは最小限に対応する $\sum_i g(e_i)$ 、 $e_i$ ある $i$ 残留番目。

ただし、最小二乗法が一般的な選択であるさまざまな理由があり、その多くは正規性の仮定を必要としません。

— Glen_b -Reinstate Monica
ソース

2

素晴らしい答え。これらのバリエーションが実際にどのように使用されているかについての詳細を提供するリンクを追加してもよろしいですか？

— rgk

（+1）すばらしい答え。あなたは、フィッティングのために使用さR-コード共有する気になり

-Regressionラインを？

L_{\infty}

$L_{\infty}$

— COOLSerdash

1

本文で説明したように、私は説明したアプローチと非常によく似た方法で、手でフィットさせました。コードを使用して十分に簡単に行うことができますが、文字通りMSペイントでプロットを開き、アクティブセット内の3つのポイント（2つをつなげて傾斜を与えた）を特定し、ラインを3番目のポイントに向かって途中まで移動しました（垂直距離をピクセル単位で半分にし、ラインをそのピクセル数だけ上に移動することにより）-これがいかに簡単かを示すことがポイントです。子供はそれをするように教えることができます。

— Glen_b-モニカの復活

@Glen_b確かに、私は新入生の物理学の研究室でまさにそれを行うように教えられたとき、私は10代でした。

— ピーターレオポルト

9

計算上最も便利な選択であるため、通常/ガウスの仮定がよく使用されます。回帰係数の最尤推定値の計算は、2次最小化問題であり、純粋な線形代数を使用して解決できます。ノイズ分布の他の選択は、より複雑な最適化問題をもたらし、通常は数値的に解決する必要があります。特に、問題は非凸状である可能性があり、さらに複雑になります。

一般に、正規性は必ずしも適切な仮定ではありません。正規分布のテールは非常に小さく、これにより、回帰推定値は外れ値に非常に敏感になります。ラプラスやスチューデントのt分布などの代替物は、測定データに外れ値が含まれている場合にしばしば優れています。

詳細については、Peter Huberの独創的な本Robust Statisticsを参照してください。

— マーティン・L
ソース

2

これらの仮説を扱う場合、二乗エロスベースの回帰と最尤法は同じ解決策を提供します。また、係数の有意性の単純なF検定と、予測の信頼区間を取得することもできます。

結論として、我々がしばしば正規分布を選択する理由はその性質にあり、それはしばしば物事を簡単にします。また、他の多くの種類のデータが「通常の種類」で動作するため、これは非常に制限的な仮定ではありません

とにかく、前の回答で述べたように、他の分布の回帰モデルを定義する可能性があります。正常はたまたま最も頻繁に発生するものです

— デビッド
ソース

2

Glen_bは、OLS回帰を一般化できる（二乗和を最小化する代わりに尤度を最大化できる）ことをうまく説明しており、他の分布を選択しています。

しかし、なぜ正規分布はそれほど頻繁に選択されるのですか？

その理由は、正規分布は多くの場所で自然に発生するためです。自然界のさまざまな場所で黄金比やフィボナッチ数が「自然に」発生することがよくあるのと同じです。

正規分布は、有限分散を持つ変数の合計の制限分布です（または、より厳密でない制限も可能です）。そして、制限を取らずに、有限数の変数の合計の良い近似でもあります。したがって、多くの観測されたエラーは、多くの小さな観測されていないエラーの合計として発生するため、正規分布は適切な近似です。

こちらもご覧ください正規分布の重要性

GaltonのBeanマシンが直感的に原理を示す場所

— セクストゥス・エンピリカス
ソース

-1

他のディストリビューションを選択しないのはなぜですか？

$y_i \in \mathbb R$ $x_i \in \mathbb R^n$ $x_i$

{\hat{y}}_{i} = w^{⊺} x_{i} .

$\hat y_i = w^\intercal x_i.$

予期せぬ損失は通常、最も賢明な損失です。

L = - \log P (y_{i} ∣ x_{i}) .

$L = -\log P(y_i \mid x_i).$

線形回帰は、上記の方程式で固定分散の正規密度を使用すると考えることができます。

L = - \log P (y_{i} ∣ x_{i}) \propto (y_{i} - {\hat{y}}_{i})^{2} .

$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$

これにより、重量が更新されます。

\nabla_{w} L = ({\hat{y}}_{i} - y_{i}) x_{i}

$\nabla_w L = (\hat y_i - y_i)x_i$

一般に、別の指数族分布を使用する場合、このモデルは一般化線形モデルと呼ばれます。異なる分布は異なる密度に対応しますが、予測、重み、およびターゲットを変更することで、より簡単に形式化できます。

$W \in \mathbb R^{n\times k}$

{\hat{u}}_{i} ≜ \nabla g (W x_{i})

$\hat u_i \triangleq \nabla g(W x_i)$

$\nabla g: \mathbb R^k \to \mathbb R^k$ $y_i$ $u_i = T(y_i) \in \mathbb R^k$

$\eta$

f (z) = h (z) \exp (η^{⊺} T (z) - g (η)) .

$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$

$\eta$ $w^\intercal x_i$ $z = y_i$

\begin{aligned} \nabla_{W} L & = \nabla_{W} - \log f (x) \\ = (\nabla g (W x_{i})) x_{i}^{⊺} - T (y_{i}) x_{i}^{⊺} \\ = ({\hat{u}}_{i} - u_{i}) x_{i}^{⊺} \end{aligned},

$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$

私の知る限り、勾配対数正規化関数は任意の単調な分析関数であり、単調な分析関数は指数関数族の勾配対数正規化関数です。

— ニール・G
ソース

これは非常に短く、私たちの基準にとってはわかりにくいので、驚きも説明してください。

— kjetil bハルヴォルセン

1

「各リンク関数は異なる分布の仮定に対応しています」 これは非常にあいまいです。リンク関数は、異なる分布の仮定に一般化する必要はありませんが、分布の平均を説明する（線形）部分を一般化することに関係します。

— セクストゥスエンピリカス

1

リンクされた記事のセクション「3.1正規分布」> 「より一般的には、Nelder（1968）に示されているように、線形化変換があるモデルを検討できます。 $f$ $g$ 」 私は知りませんがどのようなグラデーションのログ-ノーマライザーとは、この正規化変換について話しているのでしょうか？しかし、それはリンク機能ではありません。GLMのリンク関数は、線形化変換に関連しています。

— セクストゥスエンピリカス

1

通常、特定のリンク機能は、特定の分布の前提で使用されます。しかし、これは必要ではありません。だから私の分布の仮定、この例ではは正常であり、ポアソン（意図的）ではありません。いくつかのより良い（より実用的でよく知られた）例は、人々がプロビットモデルまたはロジットモデルで作業する二項/ベルノイ分布変数です。したがって、リンク関数は異なりますが、同じ（条件付き）分布仮定です。

— セクストゥスエンピリカス

1

@ニールG：私は怠け者ですか？元の投稿に驚きを簡単に含めることができましたか？また、私がそのようなコメントをしているとき、それは自分自身よりもサイトのためです。このサイトは自己完結型であることになっています。ここでの

— kjetil b halvorsen