なぜすべてのパラメータを同じように正則化するのですか？

7

私の質問は、線形回帰とロジスティック回帰の正則化に関するものです。私は現在、Coursera でAndrew Ngの機械学習コースの第3週を行っています。過剰適合が一般的な問題になる可能性があることを理解しています。また、正規化によって過剰適合を減らす方法について直観があります。私の質問は、さまざまな方法でさまざまなパラメーターを正則化することによってモデルを改善できるかどうかです。

例：

フィットしようとしているとしましょう $w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4$ 。この質問は、なぜ私たちが高 $w_1$ 高いと罰するのと同じ方法で値 $w_2$ 値。

私たちの機能について何も知らない場合 $(x_1,x_2,x_3,x_4)$ 構築された場合、正則化を行うときはすべて同じように扱うことが理にかなっています。 $w_1$ 価値は、高値と同じくらいの「ペナルティ」 $w_3$ 値。

しかし、追加情報があるとしましょう。最初は2つの機能しかなかったとします。 $x_1$ そして $x_2$ 。ラインがトレーニングセットに適合していなかったため、より波状の決定境界が必要だったため、 $x_3 = x_1^2$ そして $x_4 = x_2^3$ 。これで、より複雑なモデルを使用できるようになりますが、モデルが複雑になるほど、モデルをトレーニングデータに過剰適合させるリスクが高まります。したがって、コスト関数の最小化とモデルの複雑さの最小化の間でバランスをとる必要があります。さて、より高い指数を表すパラメータ（ $x_3$ 、 $x_4$ ）モデルの複雑さが大幅に増大しています。だから私たちは高額に対してもっとペナルティを課すべきではない $w_3$ 、 $w_4$ 私たちが高いと罰するよりも価値 $w_1,w_2$ 値？

— アテ・ユボネン
ソース

1

これは、ある機能と別の機能との関係がわからないためです。しかし、はい、AROW（重みの適応正則化）などのアルゴリズムがあり、機能の重み付けが異なると思います。

— Vladislavs Dovgalecs

4

さて、より高い指数（x3、x4）を表すパラメーターは、モデルの複雑さを大幅に増大させています。では、w3、w4の値が高い場合は、w1、w2の値が高い場合よりもペナルティを課すべきではないでしょうか。

2次または3次の項を追加するとモデルの複雑さが増すと言うのは、全体としてより多くのパラメーターを持つモデルにつながるためです。線形項よりも、2次項自体が複雑になるとは考えていません。明らかなことの1つは、他のすべての条件が同じであれば、共変量が多いモデルはより複雑になるということです。

正則化の目的で、一般にすべての共変量を再スケーリングして、平均と分散を等しくし、アプリオリに、それらを等しく重要なものとして扱います。実際、一部の共変量が従属変数と他の共変量との関係が強い場合、もちろん、正規化手順はそれらの共変量をそれほど強くペナルティしません。

しかし、1つの共変量が別の共変量よりも重要であると演繹的に考え、この信念を定量化でき、モデルにそれを反映させたい場合はどうでしょうか。次に、おそらくベイジアンモデルを使用し、既存の信念に一致するように係数の事前分布を調整します。偶然ではないが、一部のよく知られた正則化手順は、ベイジアンモデルの特殊なケースとして解釈できる。特に、リッジ回帰は係数の通常の事前分布と同等であり、投げ縄回帰はラプラシアン事前分布と同等です。

— コディオロジスト
ソース

「私たちは、二次項がそれ自体で線形項よりも複雑になることを期待していません。」これは私の直感に反します。詳しく説明できますか？

— Atte Juvonen

1

私は、「なぜ、ややgilbly、答えることができます、それは、より複雑なもの？」しかし、直観を提供するために、2人の生物学者、アリスとボブが、たまたま正方形で成長するいくつかの苔癬を研究していると想像してください。アリスは辺の長さで各苔癬パッチのサイズを表し、ボブは面積でそれを表します。つまり、ボブの数はアリスの数の2乗です。その後、各生物学者が地衣類のパッチサイズを予測子として使用して回帰モデルを構築する場合、ボブのモデルがアリスのモデルよりも複雑であるとは言えません。Aの数値は平方根であるため、Aのモデルはより複雑であると主張することもできます。

— コディオロジスト2016

0

素晴らしい観察。「「もっと」にペナルティを課すべきか」という質問に答えるには、まあ、私たちはいくつかの変数にアプリオリのペナルティを課すことから何かを得ますか？

実際には反対のことをします。入力変数を同じ大きさに再スケーリングすることを覚えておいてください。マグニチュードが異なると、いくつかの変数に対してアプリオリな「重要性」が異なります。どれが重要でどれが重要でないかはわかりません。適切な「特徴」または特徴の選択/表現の学習を見つけることに関する研究の全ラインがあります。

それで、それを考える2つの方法があります。

単純な線形基底仮説から始めて、正則化を行わないこともできます。次に、モデルの異なる仮説を立て、入力空間の2次およびその他の相互作用を取り上げます。承知しました。次に、正則化などを追加します。したがって、この「検索」は単純なものから複雑なものまであります。基礎に関する仮説を作成するため、それを行うためのパラメトリックな方法の詳細。

または、代替の「ノンパラメトリック」な方法は、本当に複雑な仮説から始めて、相互検証を介して正則化に仕事をさせます（たとえば、複雑さにペナルティを課し、より単純なものに到達する）。

正則化とノンパラメトリックのポイントは、物事を自動的に行うことです。機械に仕事をさせてください。

これは、基底関数に関する優れたリソースです。

そして最後に、 $L^p$ スペースと規範は、物事をさらに明確にします。

— 手裏剣×ブルー
ソース