二乗誤差の最小化は絶対誤差の最小化と同等ですか?なぜ二乗誤差が後者よりも一般的ですか?


39

一連のデータポイントに合うように線形回帰を実行すると、従来のアプローチは平方誤差を最小化します。二乗誤差を最小化すると絶対誤差を最小化するのと同じ結果が得られるという質問に長い間戸惑っていました。そうでない場合、なぜ二乗誤差を最小化するのが良いのでしょうか?「目的関数は微分可能」以外の理由はありますか?X 1Y 1X 2Y 2x ny ny=aバツ+bバツ1y1バツ2y2バツnyn

二乗誤差もモデルのパフォーマンスを評価するために広く使用されていますが、絶対誤差はあまり一般的ではありません。絶対誤差よりも二乗誤差が一般的に使用されるのはなぜですか?導関数を取る必要がない場合、絶対誤差の計算は平方誤差の計算と同じくらい簡単です。その有病率を説明できるユニークな利点はありますか?

ありがとうございました。


背後には常にいくつかの最適化問題があり、最小値/最大値を見つけるために勾配を計算できる必要があります。
ヴラディスラフドブガレス

11
以下のためのx - 1 1 および X 2 > | x | もし | x | > 1。したがって、二乗誤差は絶対誤差よりも大きな誤差にペナルティを課し、絶対誤差よりも小さな誤差を許容します。これは、多くの人が物事を行う適切な方法だと考えるものとよく一致しています。バツ2<|バツ|バツ11バツ2>|バツ||バツ|>1
ディリップサーワテ

回答:


47

yバツyバツ

歴史的に、ラプラスは当初、モデルの正確さの尺度として最大観測誤差を考慮していました。彼はすぐに代わりにMADの検討に移りました。両方の状況を正確に解決することができないため、すぐに差分MSEを検討しました。自身とガウス(一見並行して)は、この問題の閉形式解である正規方程式を導き出しました。最近では、線形計画法を使用してMADを解くのは比較的簡単です。ただし、よく知られているように、線形計画法には閉形式の解がありません。

バツ=0

さらに理論的な理由は、ベイジアン設定では、モデルパラメーターの一様な事前分布を仮定すると、MSEが正規分布誤差を生成し、これがメソッドの正確性の証明として採用されていることです。理論家は、それが経験的事実であると信じているため正規分布が好きですが、実験は理論的結果であると信じているので実験が好きです。

MSEが広く受け入れられた最後の理由は、MSEが幾何学的な現実を考えると非常に直感的なユークリッド距離に基づいていることです(実際には、ユークリッドバナッハ空間の投影問題の解決策です)。


1
(+1)ラプラスへの参照について!
西安

2
「理論家は正規分布が経験的事実であると信じていたので、実験家はそれが理論的結果であると信じていたため、正規分布が好きでした。」 - 大好きです。しかし、ガウス分布の直接的な物理アプリケーションもありませんか?また、最大エントロピー分布に関するものもあります
-shadowtalker

8
@ssdecontrolこのエピグラムは、100年以上前のアンリポアンカレによるものだと思います。 ル・モンド・イ・クロワの代表者、私はM.リップマンを嫌っています、車の実験者は想像力のある数学的な方法、数学的な方法は実験的なものではありません。「誰もがこのことを確信しています(エラーが通常分布していること)、実験者はそれが数学的定理であり、数学者はそれが実験的に決定された事実であると信じているため、リップマン氏はある日私に話しました。」Calculがデprobabilités(第2版、1912)、P。171
サルウェートディリップ15

1
これが数学的な答えです。独立変数Xと列行列Yのデータ行列がある場合、プロパティXb = Yの行列bがある場合、solnがあります。通常は不可能であり、正確な解に「最も近い」bが必要です。数学として、これは「簡単に」解決できます。Xの列空間へのYの投影です。投影や垂直などの概念は、メトリックに依存します。通常のユークリッドL2メトリックは、私たちが慣れているものであり、最小二乗を与えます。mseの最小化特性は、予測があるという事実を言い換えたものです。
aginensky

1
優先順位の不一致はガウスとルジャンドルの間にあり、ルジャンドルは出版でガウスに先行するが、ガウスは非公式の通信でルジャンドルに先行すると考えた。また、ラプラスの証明が優れていると考えられていることも(漠然と)認識しています。これらの参照はありますか?
パトリックT

31

別の説明として、次の直観を考慮してください。

エラーを最小限に抑える場合、これらのエラーにペナルティを科す方法を決定する必要があります。実際、linearly proportionalペナルティーを課す最も簡単なアプローチは、ペナルティー関数を使用することです。このような関数を使用すると、平均からの各偏差に対応する比例誤差が与えられます。したがって、平均から2倍離れると、ペナルティは2倍になります。

より一般的なアプローチはsquared proportional、平均からの偏差と対応するペナルティとの関係を考慮することです。これは、ことを確認するだろう、さらにはあなたが平均から離れている、比例より多くのあなたが罰せられることになります。このペナルティ関数を使用すると、外れ値(平均から遠く離れている)は、平均に近い観測値よりも比例して情報量が多いと見なされます。

これを視覚化するには、ペナルティ関数をプロットするだけです。

MADおよびMSEペナルティ関数の比較

特に、回帰(OLSなど)の推定を考慮すると、ペナルティ関数が異なると結果も異なります。linearly proportionalペナルティ関数を使用すると、回帰はsquared proportionalペナルティ関数を使用する場合よりも少ない値を外れ値に割り当てます。したがって、中央値絶対偏差(MAD)は、より堅牢な推定量であることが知られています。したがって、一般に、堅牢な推定器はほとんどのデータポイントに適合しますが、外れ値を「無視」します。それに比べて、最小二乗適合は外れ値の方に引き寄せられます。比較のための視覚化を次に示します。

OLSと堅牢な推定器の比較

現在、OLSはほとんど標準ですが、さまざまなペナルティ関数も同様に使用されています。例として、Matlabのrobustfit関数を見てみましょうこれにより、回帰に対して異なるペナルティ(「重み」とも呼ばれます)関数を選択できます。ペナルティ関数には、アンドリュー、バイスクエア、コーチー、フェア、フーバー、ロジスティック、オール、タルワー、ウェルシュが含まれます。それらに対応する表現は、ウェブサイトでも見つけることができます。

ペナルティ関数についてもう少し直感的に理解するのに役立つことを願っています:)

更新

Matlabをお持ちの場合、Matlabのrobustdemoを使用することをお勧めします。これは、通常の最小二乗とロバスト回帰の比較用に特別に構築されたものです。

堅牢なデモ

デモでは、個々のポイントをドラッグして、通常の最小二乗とロバスト回帰の両方への影響をすぐに確認できます(これは、教育目的に最適です!)。


3

別の答えで説明したように、二乗誤差の最小化は絶対誤差の最小化と同じではありません。

二乗誤差を最小化する理由は、大きな誤差を防ぐためです。

雇用主の給与部門が、合計10人の従業員のそれぞれに、必要な額よりも50 ドル少ない金額を誤って支払ったとします。これ 500 ドルの絶対誤差です。部門が1人の従業員の給与を500 ドル少なくすると、500 ドルの絶対誤差にもなります。しかし、それは二乗誤差であり、25000対250000です。

二乗誤差を使用することが常に良いとは限りません。データ集録エラーによる極端な異常値を持つデータセットがある場合、二乗誤差を最小化すると、絶対誤差を最小化するよりもはるかに異常値の方に適合します。そうは言っても、2乗誤差を使用する方が(通常は)優れています。


4
二乗誤差を最小化する理由は、大きな誤差を防ぐためです。-それでは、なぜキューブ化しないのですか?
ダニエル・アーウィッカー

@DanielEarwicker Cubedは、間違った方向のエラーを減算します。したがって、それは絶対三乗誤差であるか、偶数の力に固執する必要があります。より高いべき乗(または、実際、非多項式のペナルティ関数)の代わりに2乗が使用されるという「良い」理由はありません。計算が簡単で、最小化も簡単で、仕事をします。
アトビー

1
もちろん、より高い偶数のパワーを言うべきでした!:)
ダニエル・アーウィッカー

これは(現時点では)賛成票がありませんが、これは(現在)15票(つまり、外れ値のほうが効果的です)という答えと同じではありませんか?これは間違っているからか、いくつかの重要な情報を見逃しているから投票を得ていないのですか?それとも、きれいなグラフがないのですか?;-)
ダレンクック

@DarrenCook私は、統計に対する「現代の」アプローチがOLSよりもMADを好むのではないかと疑っています。
アトビー

2

理論的には、あらゆる種類の損失関数を使用できます。絶対損失関数と二乗損失関数は、たまたま最も人気があり、最も直感的な損失関数です。このウィキペディアのエントリによると、

一般的な例には、「場所」の推定が含まれます。典型的な統計的仮定の下では、平均または平均は、二乗誤差損失関数で発生する予想損失を最小化する位置を推定するための統計量であり、中央値は絶対差損失関数で発生する予想損失を最小化する推定量です。あまり一般的ではない他の状況では、まだ異なる推定量が最適です。

ウィキペディアのエントリでも説明されているように、損失関数の選択は、ターゲットオブジェクトからの偏差をどのように評価するかによって異なります。符号に関係なく、すべての偏差が等しく悪い場合は、絶対損失関数を使用できます。偏差が最適から遠くなるほど悪化し、偏差が正か負かを気にしない場合、二乗損失関数が最も簡単な選択です。しかし、上記の損失の定義のいずれもが手近な問題に当てはまらない場合、たとえば小さな偏差は大きな偏差よりも悪いため、異なる損失関数を選択して最小化問題の解決を試みることができます。ただし、ソリューションの統計的特性を評価するのは難しい場合があります。


少し詳細:「符号に関係なく、すべての偏差が等しく悪い場合..」:MAD関数は、エラーを線形比例してペナルティを科します。したがって、エラーが2回発生するとペナルティが2倍になるため、エラーは「同等に悪い」のではなく「比例的に悪い」ことになります。
ジャンポール

@ジャンポール:あなたは正しい。そういう意味でした。「同等に悪い」と言いたかったことは、MADの勾配が一定であるのに対し、MSEの勾配は誤差とともに直線的に増加するということでした。したがって、2つのエラーの差が最適からどれだけ離れていても一定である場合、MSEについては同じではありません。私が言いたいことをもう少しわかりやすくすることを願っています。
-kristjan

-1

短い答え

  1. いや
  2. 平均値は中央値よりも興味深い統計的性質を持っています

10
「より興味深い統計特性」を修飾できれば素晴らしいと思います。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.