最尤法と最小二乗法


42

最尤推定(MLE)と最小二乗推定(LSE)の主な違いは何ですか?

なぜ線形回帰で値を予測するためにMLEを使用できないのですか?y

このトピックに関するヘルプは大歓迎です。


8
必要に応じて、線形回帰でMLEを使用できます。これは、誤差分布が非正規であり、目標が平方和を最小化する推定値ではなく「最も可能性の高い」推定値を取得することである場合にも意味があります。
リチャードハーディ

16
線形回帰で通常想定される通常のエラー仮定の下では、MLEとLSEは同じです!
-TrynnaDoStat

1
ガウス・マルコフの定理については、当社のサイトを検索してください。
whuber

すべての返信に感謝します。これは理にかなっています。ネット上でこのトピックを検索しているときに、この記事に出会いました。多分これも役立ちます:radfordneal.wordpress.com/2008/08/09/...
エヴロスは

1
答えはstats.stackexchange.com/questions/12562/…でも提供されています
whuber

回答:


19

私は簡単な答えを提供したいと思います。

最尤推定(MLE)と最小二乗推定(LSE)の主な違いは何ですか?

@TrynnaDoStatがコメントしたように、二乗誤差を最小化することは、この場合の尤度を最大化することと同等です。ウィキペディアで述べたように、

線形モデルでは、誤差が正規分布に属する場合、最小二乗推定量は最尤推定量でもあります。

あなたの場合は同じように見ることができますが、

少し詳しく説明します。応答変数() には正規誤差分布モデルがあることがているため 、尤度関数は 明らかにLを最大化することはを最小化することと同等です これは最小二乗法です。y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

ここに画像の説明を入力してください
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

線形回帰で値を予測するためにMLEを使用できないのはなぜですか? y

上で説明したように、実際には(より正確には同等に)値を予測するためにMLEを使用しています。また、応答変数が正規分布ではなく任意の分布を持っている場合(ベルヌーイ分布または指数関数族のいずれかなど)、リンク関数(応答分布による)を使用して線形予測子を応答変数分布にマッピングすると、尤度関数は変換後のすべての結果(0〜1の確率)の積。線形回帰のリンク関数を恒等関数として扱うことができます(応答は既に確率であるため)。y


3
一般に、最尤と最小二乗は同じものではないため、「このケース」をもう少し明確に定義することをお勧めします。
マシューガン

2
@MatthewGunnええ、「同じ」以外の「と同等」を使用しました。
ラーナーチャン

線形モデルが非正規誤差分布に従う例と、そのような場合にMLEを使用して最適な係数を推定する方法の例を示していただければ幸いです。可能でない場合は、少なくとも、あなたはポアソン回帰のように、この使用して線形モデルを実証正しいソース、に私たちを指すことができます
VM_AI

12

MLは最小絶対偏差(含む推定の高く設定されているノルム)と、最小二乗(ノルムを)。MLの内部では、推定器は(悲しいことに)存在しないブレークポイントのような幅広い共通の特性を共有します。実際、MLアプローチを代替として使用して、自分が何をしているのかわかっている限り、OLSを含む多くのことを最適化できます。L 2L1L2

L 2L2ノルムはCF Gaussに戻り、約200年前ですが、現代のMLアプローチは(IMHO)Huber 1964に戻ります。多くの科学者はノルムとその方程式に慣れています。理論はよく理解されており、次のような有用な拡張機能と見なすことができる多くの公開された論文があります。L2

  • データスヌーピング
  • 確率的パラメーター
  • 弱い制約

プロフェッショナルアプリケーションはデータに適合しているだけでなく、次のことを確認します。

  • パラメータが重要な場合
  • データセットに外れ値がある場合
  • パフォーマンスを損なうことがないため、どの外れ値を許容できますか
  • 自由度に寄与しないため、どの測定を削除する必要があります

また、仮説に関する膨大な数の特殊な統計検定があります。これは、すべてのML推定量に適用される必要はありません。または、少なくとも証拠を記載する必要があります。

別の不敬な点は、 -Normは実装が非常に簡単で、ベイジアン正則化またはLevenberg-Marquardなどの他のアルゴリズムに拡張できることです。L2

忘れないでください:パフォーマンス。Gauss-Markovようなすべての最小二乗ケースが対称正定正規方程式を生成するわけではありません。したがって、 -Norm ごとに個別のライブラリを使用します。この特定のケースに対して特別な最適化を実行することができます。X T X - 1 L 2Xβ=L+r(XTX)1L2

詳細についてはお気軽にお問い合わせください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.