はいつでも再スケーリングできるため、これらは実際には同等です(@whuberのコメントも参照)。理論的には便利ですが、私の知る限りでは必要ありません。計算の観点からは、実際には非常に煩わしいので、正則化を使用するアルゴリズムを設計する場合は、通常、最初の公式を使用します。λ1/(2n)
ちょっとした裏話:私が最初にペナルティ付きの方法について学び始めたとき、私は自分の仕事のどこにでもを持ち運ぶことに悩まされたので、それを無視することを好んだ-それは私の計算の一部を簡略化さえした。当時、私の仕事は主に計算でした。最近では、理論的な作業を行っており、不可欠であることがわかりましたたとえば、)。1/(2n)1/(2n)1/n
詳細:あなたがサンプルサイズの関数としての投げ縄の挙動を解析しようとすると、あなたが頻繁にiid確率変数の合計に対処する必要があり、実際にはで正規化した後に、このような金額を分析するために、一般的に、より便利である - -多数の法則/中心極限定理(または、ファンシー、測度の集中、および経験的プロセス理論を得たい場合)。損失の前に項がない場合、最終的には分析の最後に何かを再スケーリングすることになるので、最初からそこに置いておくのが一般的により良い方法です。、それはいくつかの迷惑な要因が相殺するので便利であるnn1/n1/22 分析(たとえば、損失の2乗項の導関数を使用する場合)。
これを考えるもう1つの方法は、理論を実行するとき、一般的にが増加するときの解の動作に関心があるということです。つまり、は一定の量ではありません。実際には、いくつかの固定データセットに対して投げ縄を実行すると、アルゴリズム/計算の観点から、は実際に固定されます。したがって、追加の正規化要素を前に出すことは、それほど役に立ちません。nnn
これらは利便性の面倒な問題のように思えるかもしれませんが、これらの種類の不等式を操作するのに十分な時間を費やした後、私はを愛することを学びました。1/(2n)