正則化用語が（乗算などの代わりに）コスト関数に*追加*されるのはなぜですか？

51

正則化が使用されるたびに、次のコスト関数のように、コスト関数に追加されることがよくあります。これは、コスト関数とは、誤差を最小化（左項）し、同時に係数の大きさ（右項）を最小化（または、少なくとも2つの最小化のバランスをとる）することを意味します。

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

私の質問は、なぜこの正則化用語 $\alpha\|\theta\|_2^2$ が元のコスト関数に追加され、乗算されないか、正則化のアイデアの背後にある動機の精神を保持する何かですか？単に用語を追加するだけで十分に単純であり、これを分析的に解決することができるのか、それとももっと深い理由があるのか？

regularization

— グレメスター
ソース

1

別の議論は、代表定理によるものです

— jkabrg

2

ラグランジュ乗数

— Haitao Du

9

観測よりも独立した変数がある場合、

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ をいくつかの異なる方法でゼロにすることができるため、何を掛けても有用なモデルを区別するのに役立つ

— ヘンリー

47

これは、ベイジアンフレームワークで非常に優れた直感を持っています。正規化されたコスト関数 $J$ は、観測与えられた場合のパラメーター構成確率と同様の役割があると考えてください。ベイズの定理を適用すると、次のようになります。 $\theta$ $X, y$

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

式のログを取ると、次のことがわかります。

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

ここで、が負の¹対数後のます。最後の項はに依存しないため、最小値を変更せずに省略できます。1）尤度項はおよび依存し、2）はのみに依存します。これらの2つの用語は、式のデータ用語と正則化用語に正確に対応しています。 $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

さらに進んで、投稿した損失関数が次のモデルに正確に対応することを示すことができます。

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

ここで、パラメータはゼロ平均ガウス分布に由来し、観測はゼロ平均ガウスノイズを持ちます。詳細については、この回答を参照してください。 $\theta$ $y$

¹確率は最大にするがコストは最小にするため、負の値。

— ヤン・クッカカ
ソース

5

この答えには、コスト関数と対数事後関数との対応を手で振るだけなので、少し不満です。コストが対数事後ではなく、事後自体に対応していない場合、正規化は非正規化コストに乗算されるべきであると結論付けます（OPが尋ねたように）。-この答えを適切に正当化するためには、なぜそれが対数事後であるのかを正当化する必要があります。（「さらに先へ進む」ことをやめますが、その時点で少し手が

— RM

1

@RM、有効なポイント。理由があります。それは、機械学習で使用される標準の損失関数が事後そのものではなく対数事後に対応するためです。どうして？経験的リスク最小化を使用しているため。、および標準損失関数は通常ここで、は対数事後確率として賢明な解釈を持つ損失関数です。（私はあなたがこれを知っていると思うが、私は他の訪問者のためにそれを綴っているだけだ。）

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RMコスト場合は、観点から問題をいつでも再定義できます。つまり、コスト関数が何であれ、をMCMCメソッドの使用時に無視できる正規化定数で割った値に基づいて分布を定義します。あなたはいつも指数の面で言い換えることができます事実例えばシミュレーテッドアニーリング、MCMCサンプラーなどのために非常に重要である

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— エリー

たとえば、@ RMは、Jun Liuによるこの論文を検討します（そしてLiuのMCMCブックにも同様のコメントがありますは調査中のターゲット確率分布です（おそらくすべての pdfはこの形式で記述できます）」（強調を追加）。したがって、尤度モデルによって定義された事後の部分がこの損失関数になるベイズの観点から、この答えのこのベイズ分解は完全に一般的です。

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— 18

答えてくれてありがとう！私はあなたの投稿の冒頭で「それ」を理解しようとしています。あなたはベイジアンの枠組みの中で素晴らしい直観を持っていると正確に言っていますか？罰則を追加することで優れた推定値が得られる根本的な理由または人々がこれらの加法推定量を使用する歴史的（および非統計的）理由は？（私の言い回しを提案しようとしていたので、あなたの答えは統計的な理由ではなく歴史的な理由に対応していると思います。）

— user795305

34

ジャンとカグダスは、ベイジアンの正当な理由を示しており、レギュラライザーを事前のものとして解釈しています。以下は、非ベイジアンのものです。

正規化されていない目的が凸であり、凸正則化器を追加する場合、全体の目的は依然として凸です。これを掛けたり、他のほとんどの組み合わせ方法を使用した場合、これは当てはまりません。凸最適化は、非凸最適化と比較して本当に素晴らしいです。凸定式化が機能する場合、それを行う方が良いです。
wpofがリッジ回帰の場合に言及しているように、時には非常に単純な閉じた形式になります。
「本当に」ハード制約問題として解決したい問題を考える場合、そのラグランジュ双対が問題ラグランジュ双対性を使用する必要はありませんが、多くのことが理解されています。
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
以下のようogogmadが言及した、representer定理は、添加剤ペナルティの場合に適用されます：あなたが最適化する場合は全体にわたる再生核ヒルベルト空間機能の、我々は知っている空間全体にわたる最適化を解決は、多くの損失単純な有限次元部分空間にあります。これが乗法的正規化に当てはまるかどうかはわかりません（そうかもしれませんが）。これは、カーネルSVMの基盤です。 $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
とにかくディープラーニングまたは何か非凸状のことをしている場合：加算損失は単純な加算勾配を与えます。あなたが与えた単純な正規化器の場合、それは非常に単純な重み減衰になります。しかし、より複雑な正則化の場合でも、WGAN-GPの損失逆伝播では、損失と複雑な正則化の合計（個別に考慮する）だけを考慮する必要がある場合、勾配を計算するのが簡単です。製品ルールを実行します。 $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
加算的な損失は、一般的なADMM最適化アルゴリズムやその他の「分解」ベースのアルゴリズムにも適用されます。

これらはどれも厳格なルールではなく、実際、乗法（または他の）正則化器が（ogogmadが指摘するように）よりうまく機能する場合があります。（実際、先日、乗算正則化器として解釈できるものが上記のWGAN-GP加算器よりも優れている方法についての論文を投稿しました！）しかし、これは加算正則化器が「デフォルト」である理由の説明に役立つことを願っています。

— ドゥガル
ソース

2

+1。[おそらくNIPS]の投稿で頑張ってください！

— アメーバは、

13

目的関数の両方の項を最小化します。したがって、用語を分離する必要があります。用語を乗算すると、1つの用語を大きくし、他の用語を非常に低くすることができます。そのため、目的関数の値は低くなりますが、望ましくない結果になります。

予測力がなく、ほとんど変数がゼロに近いモデルになる可能性があります。

最小化される関数である目的関数は、コスト関数と正則化項の合計として構築できます。

両方が互いに独立している場合、目的の最初の図に示されている値を取得します。合計の場合、（0、0）には最小値が1つしかありません。製品の場合、あいまいさがあります。（x = 0またはy = 0）でゼロに等しいハイパーサーフェス全体があります。そのため、最適化アルゴリズムは、初期化に応じてどこでも終了する可能性があります。また、どちらのソリューションが優れているかを判断することはできません。

— ソーレン
ソース

10

他のバイナリ演算（）を試してそれらがどのように比較されるかを確認できます。 $\max,\min,\times$

との問題は、エラーが場合、正規化されたペナルティがです。これにより、モデルがオーバーフィットします。 $\min$ $\times$ $0$ $0$

の問題は、2つのペナルティ（トレーニングエラーまたは正規化）の「より難しい」ものを最小化することですが、他のペナルティは最小化しないことです。 $\max$

対照的に、はシンプルで機能します。 $+$

他の二項演算ではないのはなぜでしょうか？それらを除外できる議論はありません。

— jkabrg
ソース

8

有効な質問があると思います。適切な答えを得るには、問題の確率的性質を理解する必要があります。

一般に、解決しようとしている問題は次のとおりです。データ与えられた場合、このデータを説明する仮説の分布は何ですか。仮説を言うとき、私たちはPDFを意味します（少なくともこの文脈では）。そして、仮説の分布はPDFのPDF、つまりです。 $D$ $p(H | D)$

$p(H | D)$ 、所与の仮説にわたって分布である。これを見つけることができれば、これらの仮説の中から1つ、たとえば最も高い確率を持つものを選択できます。または、それらすべてを平均化することもできます。やや簡単なアプローチは、ベイズの定理を使用して別の方向から問題を攻撃することです。 $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ は仮説の1つであり、尤度とも呼ばれます。は、データを観測する前の仮説の世界における仮説の分布です。データを観察した後、信念を更新します。 $p(H)$
$p(D)$ は、信念を更新する前の仮説の平均です。

今、私たちが取る場合我々が得るベイズ式の両辺のを： $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

通常、計算は困難です。良いことは、結果に影響しないことです。これは単に正規化定数です。 $p(D)$

今、例えば仮説の私達のセットであれば持つガウスの束である私たちが知らない、しかし、を知っていると仮定し（または少なくとも定数であると仮定）、さらに仮説自体はガウス分布し次に、上記のすべてを接続すると次のようになります。 $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

この式を最小化すると、最も高い確率で仮説が見つかります。定数は最小化には影響しません。これはあなたの質問の表現です。

ガウス分布を使用したという事実は、正規化用語が追加されるという事実を変更するものではありません。それは加算的でなければなりません（ログ用語で、または確率で乗法）、他の選択肢はありません。他のディストリビューションを使用する場合に変更されるのは、追加のコンポーネントです。指定したコスト/損失関数は、ガウス分布の特定のシナリオに最適です。

— カグダス・オズゲンク
ソース

ちょっとカグダス、説明をありがとう。RHSの最後の方程式の変換を理解していませんでした。私はより明確にその部分を理解するためには、いくつかのリソースを指すことができます

— イタチ

7

リッジは非常に便利な製剤です。確率的な答えとは対照的に、この答えは推定値の解釈を与えるものではなく、リッジが古くて明白な定式化である理由を説明しています。

線形回帰では、正規方程式は与えます $\hat{\theta} = (X^TX)^{-1} X^T y$

ただし、行列は可逆的でない場合があります。それを調整する1つの方法は、対角線に小さな要素追加することです。 $X^TX$ $X^TX + \alpha I$

これは解を与えます： ; 次に元の問題ではなく、リッジの問題を解決しません。 $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
ソース

3

参照する回答を指定してください。「上」が本質的に曖昧であるため、投票が蓄積するにつれて順序が移動します。

— GUNG -復活モニカ

1

正則化項を掛けることができない理由に関して、より直感的な理由があると思います。

ペナルティ関数を、あなたが提案するような正規化項を掛けた通常のペナルティ関数にしましょう。

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

ここで、ペナルティ関数のグローバルな最小値を作成します。この場合、モデルは予測とデータの間に高い誤差を生成する可能性がありますが、モデルパラメーターの重みがすべてゼロの場合、ペナルティ関数はゼロです。 $α‖θ‖^2_2=0$ $J(θ=0)=0$

モデルが完全に完全でない限り、項がゼロになることはありません（集合θが存在する確率モデルを「完全」にするには、実際のデータでは無視できます）、モデルは常に解θ= 0に向かってトレーニングする傾向があります。 $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

これは、ローカルミニマムのどこかに行き詰まらない限り、返されるものです。

— ジェームズ・フルトン
ソース