回答:
この質問はかなり古いですが、実際にはここに表示されない答えがあり、(いくつかの合理的な仮定の下で)二乗誤差が正しいが、他の力が間違っている理由を説得力のある理由を与えます。
我々はいくつかのデータを持っていると言うそして、このデータを観察する確率密度p f(D )がfに関して最大でなければならないという意味で、データを最もよく予測する線形(または任意の)関数fを見つけたい(これは最尤推定)。我々は、データがによって与えられると仮定するとプラス標準偏差を有する正規分布誤差項σは、 p個のF(D )= N Πは iが= 1 1 これは1と同等です
x ^ 2以外のノルムを最小化することができなかった理由はありません。たとえば、分位点回帰について書かれた本全体があります。中央値で作業している場合。一般的に行うのは難しく、エラーモデルによっては、適切な推定量が得られない場合があります(コンテキスト内で低分散または不偏または低MSE推定量を意味するかどうかによって異なります)。
実数の値のモーメントよりも整数のモーメントを好む理由については、主な理由は、実数の整数の累乗は常に実数になりますが、負の実数の非整数の累乗は複素数を作成するため、絶対値。言い換えれば、実数値のランダム変数の3番目のモーメントは実在しますが、3.2番目のモーメントは必ずしも実在しないため、解釈の問題が発生します。
それ以外...
記述子内に残る分散を最小化しようとします。なぜ分散なのか?この質問を読んでください。また、これは、エラーが正規分布しているという(ほとんど黙って)仮定と一緒になります。
拡張:
2つの追加引数:
分散については、相関のないサンプルの場合、分散の合計が合計の分散に等しいというこの「法則」があります。エラーがケースと相関していないと仮定すると、平方の残差を最小化することで、説明された分散を最大化することが簡単になります。
エラーの正規性を仮定すると、最小二乗誤差推定量は最尤推定量になります。
通常の最小二乗では、(A'A)^(-1)x = A'bの解は誤差損失の二乗を最小化し、最尤解です。
そのため、この歴史的なケースでは数学が簡単だったことが主な理由です。
しかし一般に、人々は指数関数、ロジスティック、コーシー、ラプラス、フーバーなどの多くの異なる損失関数を最小化します。これらのよりエキゾチックな損失関数は一般に多くの計算リソースを必要とし、閉じた形式のソリューションを持ちません彼らは今、ますます人気が出始めています。