なぜすべてのパラメータを同じように正則化するのですか?
私の質問は、線形回帰とロジスティック回帰の正則化に関するものです。私は現在、Coursera でAndrew Ngの機械学習コースの第3週を行っています。過剰適合が一般的な問題になる可能性があることを理解しています。また、正規化によって過剰適合を減らす方法について直観があります。私の質問は、さまざまな方法でさまざまなパラメーターを正則化することによってモデルを改善できるかどうかです。 例: フィットしようとしているとしましょう w0+w1x1+w2x2+w3x3+w4x4w0+w1x1+w2x2+w3x3+w4x4w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4。この質問は、なぜ私たちが高w1w1w_1 高いと罰するのと同じ方法で値 w2w2w_2 値。 私たちの機能について何も知らない場合 (x1,x2,x3,x4)(x1,x2,x3,x4)(x_1,x_2,x_3,x_4) 構築された場合、正則化を行うときはすべて同じように扱うことが理にかなっています。 w1w1w_1 価値は、高値と同じくらいの「ペナルティ」 w3w3w_3 値。 しかし、追加情報があるとしましょう。最初は2つの機能しかなかったとします。 x1x1x_1 そして x2x2x_2。ラインがトレーニングセットに適合していなかったため、より波状の決定境界が必要だったため、x3=x21x3=x12x_3 = x_1^2 そして x4=x32x4=x23x_4 = x_2^3。これで、より複雑なモデルを使用できるようになりますが、モデルが複雑になるほど、モデルをトレーニングデータに過剰適合させるリスクが高まります。したがって、コスト関数の最小化とモデルの複雑さの最小化の間でバランスをとる必要があります。さて、より高い指数を表すパラメータ(x3x3x_3、 x4x4x_4)モデルの複雑さが大幅に増大しています。だから私たちは高額に対してもっとペナルティを課すべきではないw3w3w_3、 w4w4w_4 私たちが高いと罰するよりも価値 w1,w2w1,w2w_1,w_2 値?