問題は非常に単純です。なぜ、線形または非線形のデータにモデルを適合させようとすると、通常、誤差の二乗和を最小化してモデルパラメーターの推定量を取得しようとするのでしょうか。最小化する他の目的関数を選択してみませんか?技術的な理由から、2次関数は他の関数、たとえば絶対偏差の合計よりも優れていることを理解しています。しかし、これはまだ非常に説得力のある答えではありません。この技術的な理由以外に、なぜこの「ユークリッド型」の距離関数を好むのでしょうか?そのための具体的な意味や解釈はありますか?
私の考えの背後にある論理は次のとおりです。
データセットがある場合、最初に一連の機能的または分布的な仮定(たとえば、分布全体ではなく瞬間条件)を作成してモデルを設定します。モデルにはいくつかのパラメーターがあり(パラメトリックモデルであると仮定)、これらのパラメーターを一貫して推定する方法を見つける必要があります。うまくいけば、推定器の分散が低く、その他の優れた特性を持つことになります。SSE、LAD、またはその他の目的関数を最小化するかどうかにかかわらず、これらは一貫した推定量を取得するための異なる方法だと思います。この論理に従って、最小二乗法を使用する人は1)モデルの一貫した推定量を生成する必要があると思った2)私が知らない他の何か。
計量経済学では、線形回帰モデルでは、誤差項の予測子の平均条件が0であり、等分散性と誤差が互いに相関していないと仮定すると、二乗和の最小化によりモデルの一貫した推定量が得られることがわかりますパラメーターとガウスマルコフの定理により、この推定量は青です。したがって、これは、SSEではない他の目的関数を最小化することを選択した場合、モデルパラメーターの一貫した推定値を取得する保証がないことを示唆します。私の理解は正しいですか?それが正しい場合、他の目的関数ではなくSSEを最小化することは一貫性によって正当化できます。実際には、2次関数の方が良いと言うよりも許容できます。
実際には、実際に完全なモデル、たとえば誤差項の分布仮定(モーメント仮定)を最初に明確に指定せずに、二乗誤差の合計を直接最小化する多くのケースを見ました。これは、この方法のユーザーは、データが「モデル」にどれだけ近いかを見たいと思うようです(モデルの仮定はおそらく不完全なので、引用符を使用します)。
関連する質問(このWebサイトにも関連)は、なぜ、相互検証を使用して異なるモデルを比較しようとするとき、判断基準としてSSEを再び使用するのですか?つまり、SSEが最小のモデルを選択しますか?なぜ別の基準がないのですか?