それは設定奨励するため、あなたの損失関数は機能しませんθ1任意の有限値とにθ0に−∞。
r (x 、y )= 1と呼びましょうr(x,y)=1m∑mi=1hθ(x(i))−y残留のためのh。
あなたの目標は、r を最小化するだけでなく、できるだけゼロに近づけることです。高い負の値は、高い正の値と同じくらい悪いです。
EDIT:あなたが人為的にパラメータ空間を制限することで、これに対抗することができΘ(あなたが欲しい例えば|θ0|<10)。この場合、最適なパラメーターは、パラメーター空間の境界上の特定のポイントにあります。https://math.stackexchange.com/q/896388/12467を参照してください。これはあなたが望むものではありません。
平方損失を使用する理由
二乗誤差により、h(x)とyが強制的に一致します。可能な場合、u=vで最小化され、常に≥0これは、実数u−v 2乗であるためです。
|u−v|(u−v)2nと同様に、上記の目的でも機能しますnは正の整数です。これらの最初は、実際にそれが呼ばれています(使用されているℓ1の損失を、あなたにも渡って来るかもしれないℓ2乗誤差のために別の名前である損失、)。
では、なぜ二乗損失はこれらよりも優れているのでしょうか?これは、頻度論的推論とベイジアン推論の関係に関連する深い質問です。つまり、二乗誤差はガウスノイズに関連していますます。
データがすべての点に正確に適合しない場合、つまり、h(x)−yが選択したθ関係なくある点でゼロではない場合(実際に常に発生します)、これはノイズが原因である可能性があります。任意の複雑なシステムに多くの小さなが存在することになる独立したあなたとの間の差の原因モデル hと現実 y測定誤差、環境要因等によって:中心極限定理(CLT)、総ノイズは分散される通常即ち、に従ってガウス分布。最適なθを選択したいθこのノイズ分布を考慮に入れます。仮定R=h(X)−Yの一部yモデルは説明できない、ガウス分布は以下のN(μ,σ)。ランダム変数について話しているため、大文字を使用しています。
ガウス分布には、平均μ = E [ R ] = 1の 2つのパラメーターがあります。μ=E[R]=1m∑ihθ(X(i ))− Y(i ))と分散σ2= E[ R2] = 1m∑私(hθ(X(i ))− Y(i )))2。これらの用語をよりよく理解するには、こちらをご覧ください。
μ考慮してください。これは、測定の系統誤差です。使用h′(X )= H (X )- μ、系統的誤差を補正するようにμ′= E [ R′] = 0(読者の練習)。ここでは他に何もしません。
σは、ノイズとも呼ばれるランダムエラーを表します。私たちは前のポイントのように体系的なノイズ成分の世話をしたらとき、最良の予測が得られるσ2= 1m∑私(hθ(X(i ))− Y(i )))2最小化されます。別の言い方をすれば、最適な予測子は、予測値の周りで最も狭い分布(最小の分散)、つまり最小の分散を持つものです。最小二乗損失の最小化は、分散の最小化と同じです!これが、最小二乗損失がさまざまな問題に対して機能する理由を説明しています。基礎となるノイズは非常に多くの場合ガウス型です。これは、CLTが原因であり、二乗誤差を最小化することが正しいことであることがわかりました。
平均と分散の両方を同時に考慮するために、分類器にバイアス項を含め(系統誤差μを処理する)、二乗損失を最小化します。
フォローアップの質問:
最小二乗損失=ガウス誤差。他のすべての損失関数も何らかのノイズ分布に対応していますか?はい。例えば、ℓ1(代わりに二乗誤差の絶対値を最小化する)の損失が対応するラプラス分布(インフォボックスでPDFのための式を見て-それはただのガウスだ| X-μ |の代わりに、(X - μ )2)。確率分布の一般的な損失はKL発散ですです。-ガウス分布は、中央極限定理により非常に動機付けられています。、前に説明しました。ラプラス分布はいつ適切なノイズモデルですか?そこに約自然に来るいくつかの状況がありますが、それは、より一般的に正則ようです強制するスパース性を:ℓ1損失は少なくとも凸すべて凸の損失の中で。
- 月はコメントで言及、の最小化二乗偏差は平均値であるとの和の最小化絶対偏差がある中央値。なぜ平均ではなく残差の中央値を求めたいのでしょうか?平均とは異なり、中央値は1つの非常に大きな外れ値によってスローされません。したがって、ℓ1損失はロバスト性の向上に使用されます。時々、2つの組み合わせが使用されます。
平均と分散の両方を最小化する状況はありますか?はい。見上げバイアス分散トレードオフを。ここでは、分類器のセットを見ているhθ∈ Hその中で最高であると尋ねます。どの分類器のセットが問題に最適かを尋ねると、バイアスと分散の両方を最小化することが重要になります。それらの間には常にトレードオフがあり、妥協を達成するために正則化を使用することがわかります。
1について12学期
1/2は重要ではなく、実際、mも重要ではありません。両方とも定数です。θの最適値は、どちらの場合も同じままです。
勾配の式は1でよりきれいになります12(平方項の2が相殺されるため)。
- コードやアルゴリズムを書くとき、私たちは通常、勾配にもっと関心があるので、それは簡潔に保つのに役立ちます。勾配のノルムをチェックするだけで進捗を確認できます。損失関数自体は最終回答の検証にのみ使用されるため、コードから省略される場合があります。
mあなたが急降下して、この問題を解決する場合に便利です。勾配は合計ではなくm項の平均になるため、データポイントを追加してもスケールは変わりません。
- 前に私はこの問題に遭遇しました:私は、ポイント数の少ないコードをテストし、それが正常に動作していますが、データセット全体でそれをテストするときの精度の損失があり、時にはオーバー/アンダーフロー、グラデーションになる、すなわち、
nan
またはinf
。それを回避するには、データポイントの数だけを正規化します。
これらの審美的な決定は、正則化用語を追加する将来の方程式との一貫性を維持するためにここで使用されます。mを含めると、正則化パラメーターλはデータセットのサイズm依存せず、問題を超えて解釈しやすくなります。