モデルをフィッティングするときに、通常、二乗和誤差(SSE)を最小化することを選択するのはなぜですか?


23

問題は非常に単純です。なぜ、線形または非線形のデータにモデルを適合させようとすると、通常、誤差の二乗和を最小化してモデルパラメーターの推定量を取得しようとするのでしょうか。最小化する他の目的関数を選択してみませんか?技術的な理由から、2次関数は他の関数、たとえば絶対偏差の合計よりも優れていることを理解しています。しかし、これはまだ非常に説得力のある答えではありません。この技術的な理由以外に、なぜこの「ユークリッド型」の距離関数を好むのでしょうか?そのための具体的な意味や解釈はありますか?

私の考えの背後にある論理は次のとおりです。

データセットがある場合、最初に一連の機能的または分布的な仮定(たとえば、分布全体ではなく瞬間条件)を作成してモデルを設定します。モデルにはいくつかのパラメーターがあり(パラメトリックモデルであると仮定)、これらのパラメーターを一貫して推定する方法を見つける必要があります。うまくいけば、推定器の分散が低く、その他の優れた特性を持つことになります。SSE、LAD、またはその他の目的関数を最小化するかどうかにかかわらず、これらは一貫した推定量を取得するための異なる方法だと思います。この論理に従って、最小二乗法を使用する人は1)モデルの一貫した推定量を生成する必要があると思った2)私が知らない他の何か。

計量経済学では、線形回帰モデルでは、誤差項の予測子の平均条件が0であり、等分散性と誤差が互いに相関していないと仮定すると、二乗和の最小化によりモデルの一貫した推定量が得られることがわかりますパラメーターとガウスマルコフの定理により、この推定量は青です。したがって、これは、SSEではない他の目的関数を最小化することを選択した場合、モデルパラメーターの一貫した推定値を取得する保証がないことを示唆します。私の理解は正しいですか?それが正しい場合、他の目的関数ではなくSSEを最小化することは一貫性によって正当化できます。実際には、2次関数の方が良いと言うよりも許容できます。

実際には、実際に完全なモデル、たとえば誤差項の分布仮定(モーメント仮定)を最初に明確に指定せずに、二乗誤差の合計を直接最小化する多くのケースを見ました。これは、この方法のユーザーは、データが「モデル」にどれだけ近いかを見たいと思うようです(モデルの仮定はおそらく不完全なので、引用符を使用します)。

関連する質問(このWebサイトにも関連)は、なぜ、相互検証を使用して異なるモデルを比較しようとするとき、判断基準としてSSEを再び使用するのですか?つまり、SSEが最小のモデルを選択しますか?なぜ別の基準がないのですか?


回答:


14

あなたの質問は、サイト上の他の多くの質問と似ていますが、この質問の側面(一貫性を重視するなど)から、重複するほど十分ではないと思います。

最小化する他の目的関数を選択してみませんか?

どうしてですか?目的が最小二乗と異なる場合は、代わりに目的に取り組む必要があります!

それにもかかわらず、最小二乗には多くの素晴らしい特性があります(特に、多くの人が望む推定手段との密接な関係、および新しいアイデアを教えたり実装しようとする際に明白な最初の選択肢となるシンプルさ)。

さらに、多くの場合、人々は明確な目的関数を持っていないため、容易に入手でき、広く理解されているものを選択することには利点があります。

そうは言っても、最小二乗にはいくつかのあまり良い性質もありません(たとえば、外れ値に対する感度)。

二乗誤差の合計を最小化すると、モデルパラメーターの一貫した推定量が得られます

最小二乗は一貫性の要件ではありません。一貫性はそれほど高いハードルではありません-多くの推定量が一貫しています。人々が実際に使用するほとんどすべての推定量は一貫しています。

そして、ガウス・マルコフの定理により、この推定量は青です。

しかし、すべての線形推定器が悪い状況では(極端なヘビーテールの場合のように)、最良のものにはあまり利点がありません。

SSEではない他の目的関数を最小化することを選択した場合、モデルパラメーターの一貫した推定量が得られるという保証はありません。私の理解は正しいですか?

一貫した推定量を見つけるのは難しくないので、それは最小二乗法の特に良い正当化ではありません

なぜ相互検証を使用して異なるモデルを比較しようとするとき、判断基準として再びSSEを使用するのですか?[...]なぜ他の基準ではないのですか?

あなたの目的が他の何かによりよく反映されている場合、実際にはどうですか?

最小二乗法以外の目的関数を使用している人が少なくありません。これは、M推定、最小トリミング推定量、分位点回帰、および人々がLINEX損失関数を使用する場合に、ほんの数例を挙げるとわかります。

データセットがある場合、最初にモデルを設定する、つまり、機能的または分布的な仮定のセットを作成すると考えていました。モデルには、いくつかのパラメーターがあります(パラメーターモデルであると想定)。

おそらく、機能的仮定のパラメーターはあなたが推定しようとしているものです-その場合、機能的仮定はあなたが周りで最小二乗(または他のこと)することです。それらは基準を決定するのではなく、基準が推定するものです。

一方、分布の仮定がある場合は、より適切な目的関数に関する多くの情報があります-たとえば、パラメーターの効率的な推定値を取得したい場合は、大きなサンプルではMLEに導く傾向があります(ただし、場合によっては、堅牢なフレームワークに埋め込まれます)。

次に、これらのパラメータを一貫して推定する方法を見つける必要があります。SSE、LAD、またはその他の目的関数のいずれを最小化しても、

LADは変位値推定器です。これは、最小二乗法と同じように、予想される条件で推定するパラメーターの一貫した推定量です。あなたが見れば最小二乗法で、他の多くの一般的な推定の結果を該当ありますのために(あなたは一貫性を示してどのような。あなたは、推定器は広く議論されて見れば人々はめったにので、一貫性のない推定量を使用しない限り、彼らはその矛盾の話をしている、それはほとんどです確かに一貫しています。*)

*とはいえ、一貫性は必ずしも必須のプロパティではありません。結局のところ、私のサンプルには、特定のサンプルサイズがあり、無限になる傾向があるサンプルサイズのシーケンスではありません。どのような事項がでプロパティです私はいくつかの無限に大きくなる、持っていない、私がいることを持っていないと見ることはありません。しかし、矛盾がある場合はさらに注意が必要です = 20 で適切な推定量が得られる場合がありますが、 = 2000 ではひどい場合があります。一貫性のある推定量を使用したい場合、何らかの意味でより多くの労力が必要です。n n nnnnn

LADを使用して指数の平均を推定する場合、その推定値の一貫性はありません(ただし、その推定値の自明なスケーリングはそうなりますが)-しかし、最小二乗法を使用して指数関数の中央値を推定する場合は同じトークンによって、それに対して一貫性がありません(そして、ささいな再スケーリングはそれを修正します)。


懸念を明確に表明しなかったと思います。データセットがある場合、最初にモデルを設定する、つまり、機能的または分布的な仮定のセットを作成すると考えていました。モデルにはいくつかのパラメーターがあり(パラメーターモデルと仮定)、これらのパラメーターを一貫して推定する方法を見つける必要があります。SSE、LAD、またはその他の目的関数を最小化するかどうかにかかわらず、これらは推定量を取得するための単なる異なる方法だと思います。この論理に従って、最小二乗法を使用する人は1)モデルの一貫した推定値を生成する必要があると考えました2)他のもの
-KevinKim

おそらく、機能的仮定のパラメーターは、あなたが推定しようとしているものです-その場合、機能的仮定は、あなたが最小二乗(または他のこと)することです。彼らは基準を決定しません。一方、分布の仮定がある場合は、より適切な目的関数に関する多くの情報があります-たとえば、パラメーターの効率的な推定値を取得したい場合は、大きなサンプルではMLEに導く傾向があります(ただし、場合によっては、堅牢なフレームワークに埋め込まれます)。
Glen_b -Reinstateモニカ

この答えは私の考え方に合っています。しかし、私はまだ質問があります、「彼らは基準を決定しない」とはどういう意味ですか?これは、たとえば、線形回帰の計量経済学101では、機能的(分布的ではない)仮定の下で、一貫した推定量を得るためにolsを使用するようになり、任意の目的関数を使用して最小化できないことを意味しますそこから一貫した推定量を導き出す保証はありますか?
ケビンキム

「決定しない」で-私の答えを拡大させてください。一貫性について:私は答えで反対を述べました。繰り返しますが、最小二乗は一貫性の要件ではありません。これには、あなたが言及した状況が含まれます。一貫性のある無限の代替推定量があります。人々が実際に使用するほぼすべての推定量は一貫しています。より明確になるように回答を編集します。
Glen_b-モニカの復職

最後の段落の更新された回答では、モデルによっては、モデルパラメーターに一貫したパラメーターを生成しない方法がいくつかありますが、いずれにしてもこれらの方法を適用でき、compterはいくつかの数値を提供しますか?だから私は、人々が構築するモデルについて、モデルのパラメータの推定量を導出するために、人々はその技術的な素晴らしい特性に基づいてJUSTを最適化する目的関数をfunction意的に選択することはできないと言えますか?
ケビンキム

5

あなたは統計の質問をしました。そして、私の制御システムエンジニアの答えが、啓発するのに十分な異なる方向から突き刺されることを願っています。

制御システムエンジニアリングの「標準的な」情報フローフォームを次に示します。 ここに画像の説明を入力してください

「r」は参考値です。出力「y」の「F」変換で合計され、エラー「e」が生成されます。このエラーは、制御伝達関数「C」によってプラント「P」の制御入力に変換されたコントローラーの入力です。任意の植物に適用するのに十分なほど一般的であることを意図しています。「プラント」は、クルーズコントロール用の車のエンジン、または逆振り子の入力角度です。

次の説明、現在の状態、および目的の最終状態に適した現象論を備えた既知の伝達関数を持つプラントがあるとします。(表2.1 pp68)システムは、入力が異なると初期状態から最終状態に到達するために通過できる一意のパスが無限にあります。教科書のコントロールエンジニアの「最適なアプローチ」には、最適な時間(最短時間/バングバング)、最適な距離(最短経路)、最適な力(最小の最大入力振幅)、および最適なエネルギー(最小総エネルギー入力)が含まれます。

無限の数のパスがあるように、無限の数の「最適」があります-それぞれがそれらのパスの1つを選択します。1つのパスを選択し、それが最良であると言う場合、暗黙的に「良さの尺度」または「最適性の尺度」を選択しています。

私の意見では、L-2ノルム(別名エネルギー最適、別名最小二乗誤差)のような人々は、シンプルで、説明しやすく、実行しやすく、小さな誤差よりも大きな誤差に対してより多くの作業を行う性質があるため、そして、バイアスがゼロのままになります。分散が最小化され、バイアスが制限されているがゼロではないh無限大ノルムを考えます。それらは非常に便利ですが、記述がより複雑で、コードがより複雑です。

L2ノルム、別名エネルギー最小化最適パス、別名最小二乗誤差近似は簡単で、怠senseな意味で「大きな誤差はより悪く、小さな誤差はそれほど悪くない」という経験則に適合すると思います。これを定式化するアルゴリズム的な方法は文字通り無限にありますが、二乗誤差は最も便利な方法の1つです。それは代数だけを必要とするので、より多くの人々がそれを理解できます。(ポピュラーな)多項式空間で機能します。エネルギー最適化は、知覚された世界を構成する物理学の多くと一致しているため、「親しみを感じます」。計算はかなり高速であり、メモリ上で恐ろしくありません。

もっと時間があれば、写真、コード、書誌参照を入れたいです。


1

モデルをフィッティングするとき、は主要な適合度(GoF)統計であると直接(負の)関係があるため、通常、二乗誤差合計()を最小化することを選択すると思いますモデルの場合、次のようになります(は平方和の合計です)。S S E R 2 S S TSSESSER2SST

R2=1SSESST

調整されたがサンプルサイズと係数の数の補正により(バイアスのない)GoF統計値である理由の説明を省略すると(このまたはこれを参照)、この接続はファミリーとして重要であると思われます統計は、二乗平均平方根誤差()などの、適合の相対測定絶対測定を表すものです。R 2 R M S ER2R2RMSE

また、事実一緒になって、独立変数の全てによって説明することができる従属変数の分散の割合に等しいが、作る、間接的に、こうしてと、の測定説明力(またはモデルの予測力)。実際、予測モデルについては、統計と同様の予測残差平方和()の使用を推奨する人もいます。詳細については、この投稿この投稿をご覧ください。これらは投稿の最後の質問に関連しています。R 2 S S E S S E P R E S SR2R2SSESSEPRESS

主な質問の結論と答えとして、私は通常最小化すると考えています。これは、問題の統計モデルの説明力または予測力最大化することに等しいからです。SSE


2
調整済みは、母集団がゼロの場合は不偏ですが、一般に不偏ですか、つまり母集団のいくつかの勾配が非ゼロの場合ですか?R 2R2R2
シルバーフィッシュ

@Silverfish:コメントありがとうございます。私はあなたが言及した投稿を読んだだけで、あなたは正しいようです:調整されたは条件付きで偏りのないものです または、「母集団ほぼ公平な推定値」としてラベルを付けることができます(強調文書このドキュメントのスライド13を参照)。R 2R2R2
アレクサンドルブレフ

R2

R2

0

また、最小二乗近似ではなく最大誤差を最小化することも検討できます。このテーマに関する十分な文献があります。検索語については、「チェビシェフ」多項式のスペルも「チェビシェフ」を試してください。


1
最大はL無限大ノルムです。Nutonian / Formulize / Eureqaを見ると、四分位間絶対誤差、ヒンジ損失誤差、ROC-AUC、および符号付き差を含むコスト汎関数(誤差形式)の素敵な動物園があります。 formulize.nutonian.com/documentation/eureqa/general-reference/...
EngrStudent -復活モニカ

0

線形代数の領域内にいることができ、より強力な凸最適化のような他のより複雑なものに触れることができないため、人々は正方形を使用しているように見えますが、素敵な閉形式のソリューションなしでusinソルバーにつながります。

また、コンベックス最適化という名前のこの数学領域からのアイデアはあまり普及していません。

「...なぜ私たちはアイテムの四角を気にするのか。それを分析できるので正直に言うと...もしあなたがそれがエネルギーに対応し、彼らがそれを買うと言ったら、すぐに進む....」- https:/ /youtu.be/l1X4tOoIHYo?t=1416、EE263、L8、23:36

また、Stephen P. Boydは、2008年に人々がハンマーとアドホックを使用することを説明しています。L20、01:05:15- https ://youtu.be/qoCa7kMLXNg?t=3916


0

サイドノート:

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}w
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
wβ
12n=1N{y(xn,w)tn}2.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.