エラーが正規分布していない場合、最小二乗法と最尤法の回帰法が等しくないのはなぜですか?


11

タイトルはそれをすべて言います。モデルのエラーが正規分布している場合、最小二乗と最大尤度は回帰係数に対して同じ結果になることを理解しています。しかし、エラーが正常に分布していない場合はどうなりますか?なぜ2つの方法が同等ではなくなったのですか?


(a)正規性の仮定が満たされていないときにMLEを使用すること、または(b)非ガウス尤度関数を使用することを意味しますか?
Tim

(a)、正常性の仮定が満たされていない場合
Shuklaswag

仮定が満たされていない場合でも(つまり、観測値がガウス分布ではない場合)...ガウス尤度関数を使用してMLEを計算すると、最小二乗最適化と同じようになります。最適化手法は数学的に同等であり、正規性の仮定が正しいかどうかとは無関係です。
Sextus Empiricus

正規分布であっても、最小二乗は固定分散を課します。
CodesInChaos 2017

:また、この関連の質問を参照してください stats.stackexchange.com/questions/173621/...
HalvorsenのはKjetil B

回答:


16

簡潔な答え

多変量ガウス分布の確率密度は、分散型変数x=(x1,x2,...,xn)の平均と、μ=(μ1,μ2,...,μn)の二乗に関連しています(平均値と変数との間のユークリッド距離|μx|22、つまり二乗和で)。


長い答え

n誤差に対して複数のガウス分布を乗算すると、偏差が等しいと仮定すると、二乗和が得られます。

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

または便利な対数形式:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

したがって、μを最適化して二乗和を最小化することは、(対数)尤度(つまり、複数のガウス分布の積、または多変量ガウス分布の積)を最大化することと同じです。

それは違い、このネストされた正方形であり(μx)内部指数構造、exp[(xiμ)2]、他のディストリビューションが持っていません。


たとえば、ポアソン分布の場合と比較してください

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

これは、以下が最小化されたときに最大になります。

μjlog(μj)xij

これは別の獣です。


その他(歴史)

正規分布の履歴(deMoivreが二項分布の近似としてこの分布に到達することを無視)は、実際にはMLEを最小二乗法に対応させる分布の発見と同じです(最小二乗法はメソッドではありません)正規分布のMLEを表すことができます。最初に最小二乗法、2番目にガウス分布が使用されます)

「最尤法」と「最小二乗法」を結びつけるガウスは、「ガウス分布」、ex2を生み出しました。 2つの方法。

チャールズヘンリーデイビスの翻訳(円錐形のセクションで太陽の周りを移動する天体の運動の理論。ガウスの「セオリアモータス」の翻訳、付録付き)...

ガウスは以下を定義します:

したがって、確率各エラーに割り当てるΔの関数で表現されるΔ我々はによって意味するものψΔ

(私が行った斜体化)

そして続けます(177ページの258ページ):

...それは容易に推察されるそこそのψΔΔは一定量でなければなりません。これをk表します。したがって、我々が持っている

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
によって双曲線対数の底を表すeと仮定
Constant=logx

最終的に(正規化してk<0を実現した後)

ψΔ=hπehhΔΔ


StackExchangeStrikeによって書かれた


この知識をどこから得たか覚えていますか?投稿にソースを追加していただけませんか?(私はこれをうまく説明するテキストを見つけるのに苦労しています。)
Joooeey

@Joooeeyガウスの翻訳された引用のソースのタイトルと、多くのオンラインソースの1つへのリンクを追加しました。この元のテキストは重いですが、正規分布の履歴の説明では、より軽い条約に遭遇するはずです。
Sextus Empiricus

尤度関数は多くの場所でポップアップしています。私がこの「知識」を得たソースを探すなら、多変量正規分布が幾何学的に扱われるカイ2乗検定に関するピアソンの1900年の記事と言えるでしょう。また、フィッシャーは幾何学的表現を数回使用しました(たとえば、推定の効率について、平均二乗誤差と平均絶対誤差を比較し、ハイパースペース内の表面について話す場合、20年代にこの1つの記事があります)。
Sextus Empiricus

@Joooeey私はこのフィッシャーの記事をここで参照しました。そして、ここでの私の答えは、フィッシャーにも関連するt分布の特性を導出するために幾何学的な視点を使用しています(彼がGossetのt分布を証明している記事、またはおそらく少し後の記事を信じています)。
Sextus Empiricus

5

MLEは、正規分布する残差の仮定から導出されるためです。

ご了承ください

minβ  Xβy2

確率的な意味はありません。二乗損失関数を最小化するを見つけてください。すべてが確定的であり、ランダムなコンポーネントはありません。β

確率と尤度の概念が来るところは、

y=Xβ+ϵ

ここで、を確率変数と見なし、は正規分布です。ϵyϵ


@Matthew Druryがなぜマトリックス表記を変更し、合計記号を追加するのですか?
Haitao Du

はっきりしていると思いましたが、ステートメントに確率的な意味がないと主張する場合、ランダム変数として最もよく解釈されるシンボルを含む式を使用することはできません。あなたが参照している最適化の問題は、固定データに関連しています。
Matthew Drury

5

最小二乗と最大(ガウス)尤度近似は常に同等です。つまり、同じ係数セットによって最小化されます。

エラーの仮定を変更すると、尤度関数が変更され(モデルの尤度を最大化することは、エラー項の尤度を最大化することと同じです)、そのため、関数は同じ係数セットによって最小化されなくなります。

したがって、実際には2つは同じですが、理論的には、異なる可能性を最大化すると、最小二乗法とは異なる答えが得られます


「または常に同等」?
nbro

0

具体的な例:単純なエラー関数p(1)=。9、p(-9)= .10を取るとします。2つのポイントを取る場合、LSはそれらのポイントを通過します。一方、MLは、両方のポイントが1ユニット高すぎると想定しているため、ユニット上でシフトされたポイントを通る直線になります。


2
あなたの例は不明確です。特に、記述しようとしているモデルや、MLが主張する結果を生成する理由を確認するのは困難です。この回答でさらに詳しく説明してもらえますか?
whuber

モデルは、y = mx + b + errorです。エラーは、90%の確率で+ 1、10%の確率で-9です。観測された点を考えると、真の点は90%の確率で1ユニット下にあり、10%の確率で9ユニット上にあります。したがって、MLは、真のポイントが1ユニット下であると示しています。これについてあなたは何を理解していませんか?
累積:

2
あなたのコメントは役に立ちますが、あなたの答えはまだモデルを明確または理解可能な方法で説明していません。その説明を回答自体に組み込めますか?それは良い例です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.