なぜ重みが小さくなると正則化のモデルが単純になるのですか?


27

私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。

正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。

これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。

私の混乱は私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。

Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。

私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。


2
これは「おばあちゃんが理解できるように」という答えを必要とする質問のように聞こえます。
EngrStudent-モニカの復職

2
@EngrStudent高校の数学の先生と高校の数学の試験官が読むために、それをまさに数学IAで提示する必要があるからです。
MCKapur

回答:


4

正則化を使用する場合、サンプル内エラーを最小化するだけでなく、ます。OutOfSampleErrorInSampleError+ModelComplexityPenalty

より正確には、仮説ここで、は何らかのパラメーター、通常は、はデータセット内の例の数、は重み、依存するペナルティーです。これは拡張エラーとして知られています。これで、重みがかなり小さい場合にのみ、上記の関数を最小化できます。Jaug(h(x),y,λ,Ω)=J(h(x),y)+λ2mΩhHλλ(0,1)mΩwΩ=wTw

ここにおもちゃのRコードがあります

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

したがって、仮説空間全体にペナルティを課す代わりに、各仮説個別にペナルティを課します。重みベクトルによって仮説参照することがあります。Hhhw

小さな重みが低いモデルcomplexitityと一緒に行く理由については、次のような仮説での見てみましょう:。合計で、3つのアクティブな重みパラメーター。それでは、を非常に小さな値に設定しましょう。これにより、モデルの複雑さがます。3つのアクティブな重みパラメーターの代わりに、残りの2つだけを取得しました。w 1w 3 w 3 w 3 = 0 h 1x = x 1 × w 1 + x 2 × w 2h1(x)=x1×w1+x2×w2+x3×w3w1,,w3w3w3=0h1(x)=x1×w1+x2×w2


1
明らかに、重みがゼロに減少すると、項、したがって計算操作を削除できるため、モデルの複雑さが減少します。しかし、これは、重みの値ゼロに近づくにつれてモデルの複雑さが減少する理由を説明するのに役立ちません。誰でも式ではなく言葉で説明できますか?
greg7gkb

6

私が何について話しているかを本当に知っているかどうかはわかりませんが、試してみましょう。オーバーフィッティングを防ぐのは小さな重みではありません(私は思う)、正規化がモデル空間をより強く減らすという事実です。実際、X値のL2ノルムから10000000のベクトルを引いて、必要に応じて約10000000を正規化できます。これにより、オーバーフィッティングも削減されます(もちろん、その背後に何らかの根拠が必要です(つまり、Y値はX値の合計よりも10000000倍大きいかもしれませんが、データを再スケーリングするだけなので、実際には誰もそれを行いません)。

バイアスと分散は両方ともモデルの複雑さの関数です。これはVC理論に関連しているので、それを見てください。可能なモデルのスペースが大きいほど(つまり、すべてのパラメーターが基本的に取り得る値)、モデルがオーバーフィットする可能性が高くなります。モデルが直線であることから、上下に移動する正弦波のようにあらゆる方向に波打つことまですべてを行える場合、データのランダムな摂動を拾い上げてモデル化する可​​能性がはるかに高くなります基礎となる信号ですが、そのデータセットでの幸運なチャンスの結果です(これは、より多くのデータを取得することが過適合ではなく過適合ではない理由です)。

正則化すると、基本的にモデル空間が縮小されます。これは必ずしも、より滑らかで平坦な関数のバイアスが高く、分散が少ないことを意味するわけではありません。正弦波で覆われた線形モデルについて考えてみましょう。正弦波は、基本的には何もしない(基本的にファジーな線である)本当に小さな振幅振動を持つように制限されています。この関数はある意味で非常に不安定ですが、線形回帰よりもわずかに過剰適合します。より滑らかで平坦な関数がより高いバイアスとより少ない分散を持つ傾向がある理由は、データサイエンティストとして、サンプルスペースを減らした場合、occamのカミソリによって、より滑らかでシンプルなモデルを維持し、モデルを捨てると思いますそれは波打つとどこでも振動しています。波状のモデルを最初に捨てるのは理にかなっています。

リッジ回帰のような正則化は、ゼロ(または任意の数)から遠くなるほどコストが高くなるため、モデル空間を削減します。したがって、データの小さな摂動を考慮に入れるという選択にモデルが直面すると、パラメータ値が(一般的に)増加するため、そうではない側でエラーが発生する可能性が高くなります。その摂動が偶然によるものである場合(つまり、x変数の1つがy変数とわずかにランダムに相関している場合)、非正規化回帰には関連するコストがないため、モデルは非正規化回帰に対してそれを考慮しませんベータ版のサイズを増やします。ただし、その摂動が実際の信号によるものである場合、正則化回帰はそれを逃す可能性が高く、それがバイアスが高い理由(および分散バイアスのトレードオフがある理由)です。


思慮深い答えをありがとう!はい、4番目の段落で、「データの小さな摂動を考慮に入れるという選択に直面すると、モデルは(一般的に)パラメーターを増加させるため、そうではない可能性が高くなります。値。"。これは、なぜそうなのを具体的に尋ねているものですか?ありがとう!
MCKapur

ペナルティ係数を追加すると、モデルのベータが高くなる可能性が低くなるため、モデル空間が小さくなります。覚えておくべきもう1つのことは、モデルがすべてノイズである場合、相関がないために傾斜がゼロになる可能性が高いことです(これは、ウィググリ/フラット引数を作成するときに考えていなかったものの、引数はまだだと思います一般的に正しい)。したがって、混乱/関係がある場合は、ベータ版を増やす可能性があります。したがって、正則化はこの事実にペナルティを課し、回帰がそれらの摂動が信号またはノイズであってもフィッティングを停止します。
www3

@ ww3わかりました。しかし、なぜ大きなベータ版はより高いモデル空間をもたらすのでしょうか?
MCKapur

これがもう必要かどうかはわかりませんが、答えると思いました。重要なのは大きなベータ版ではありません。たとえば、Yまたは1000 * Yを使用して回帰を実行すると、それぞれの複雑度は同じになりますが、2番目の場合はベータが1000高くなります。典型的な正則化により、特定のベータの組み合わせを達成するのがより難しくなります。たとえば、ある係数を1000に、別の係数を-1000にしたり、他の係数をすべて0のようにフラット/シンプルにしたりすることが容易になります。これは、モデルにデータから特定のノイズのある癖がある場合、正規化されたモデルがそれを拾う可能性が低いことを意味します。
www3

続行するには、モデルはすべてのノイズのある癖を無視しません。ベータの絶対値を増加させる癖のみを無視します。これは、ベータの価値を低下させる癖がより強調されることを意味します。ただし、直線よりもはるかに細かな線を描くことができます(つまり、2次方程式を線形方程式または定数方程式と比較します)。したがって、データに影響を与えるノイズの多い癖がある場合、より平坦な/まっすぐなモデルよりも、モデルをより細かく(したがってより複雑なモデルに)当てはめる可能性がはるかに高くなります。
www3

3

ストーリー:
おばあちゃんは歩きますが、登りません。おばあちゃんもいます。おばあちゃんはキリマンジャロ登ることで有名でした。

その休火山は大きい。基部から16,000フィート上にあります。(私の帝国部隊を嫌いにしないでください。)また、氷河が上部にあることもあります。

氷河のない年に登って頂上に着いた場合、それは氷河があったかのように頂上と同じですか?高度が異なります。あなたがとらなければならない道は異なります。氷河の厚さが大きいときに上に行くとどうなりますか?それはより多くの成果をもたらしますか?毎年約35,000人が登ろうとしますが、成功するのは約16,000人だけです。

アプリケーション:
次のように、おばあちゃんに重みの制御(モデルの複雑さを最小化する)を説明します

おばあちゃん、あなたの脳はあなたがそれを知っているかどうかにかかわらず驚くべき思想家です。16,000人のうち、彼らが実際にトップに達したと思う人の数を尋ねると、「全員」と言うでしょう。

30,000人の登山者全員の靴にセンサーを取り付けて、海抜からの高さを測定すると、一部の人々は他の人々ほど高くならず、資格が得られない可能性があります。私がそれをするとき、私は一定のモデルに行きます-私は、高さが測定された最大の高さのあるパーセンタイルに等しくないならば、それが最上部ではないと言っています。一部の人々はトップにジャンプします。一部の人々はただ列を横切って座っています。

センサーに緯度と経度を追加し、いくつかの高次方程式を当てはめることができたかもしれませんし、より良い適合を得て、より多くの人を入れることができたかもしれません。

それで、いくつかの火山が実際に地球のアルベドを変えるので、来年は「大きな氷河」年または「氷河なし」年であるとしましょう。今年から複雑で厳格なモデルを採用し、来年登山する人々に適用すると、このモデルは奇妙な結果をもたらすでしょう。たぶん誰もが「パス」するか、パスするには高すぎます。たぶん誰も通らないだろうし、誰も実際に登りきったとは思わないだろう。特に、モデルが複雑な場合、一般化がうまく行われない傾向があります。今年の「トレーニング」データに正確に適合する可能性がありますが、新しいデータが来たときの動作は不十分です。

考察:
モデルの複雑さを制限する場合、通常、過剰適合なしでより一般化することができます。より単純なモデルを使用すると、実世界の変動に対応するように構築されたモデルの方が、他のすべてが同じであれば、より良い結果が得られる傾向があります。

これでネットワークトポロジが固定されたので、「私のパラメーターカウントは固定されています」と言っていることになります。モデルの複雑さを変えることはできません。ナンセンス。重みのエントロピーを測定します。エントロピーが高い場合、いくつかの係数が他の係数よりもかなり多くの「情報量」を保持していることを意味します。エントロピーが非常に低い場合、一般的に係数は同様のレベルの「情報性」を持っていることを意味します。情報提供は必ずしも良いことではありません。民主主義では、すべての人が平等であることを望みます。ジョージオーウェルのような「他の人よりも平等」は、システムの失敗の尺度です。それに大きな理由がない場合は、重みを互いにほぼ同じにする必要があります。

個人的な注意:ブードゥー教やヒューリスティックを使用する代わりに、信頼できる一貫した結果を得ることができるため、「情報基準」のようなものを好みます。 AICAICc、およびBICは、一般的で便利な出発点です。分析を繰り返してソリューションの安定性、または情報基準の結果の範囲を決定することは、一般的なアプローチです。重みのエントロピーに上限を設けることが考えられます。


2
興味深いことに異なります。Pedantのコーナー:「Orson Wells」を書きましたね。スペルはWellesです。ジョージ・オーウェル(Animal Farm)をずっと意味していたと思う。
ニックコックス

@NickCox-私は非常に病気でした。思ったほど脳が機能していません。オーウェル、そうだった。
EngrStudent-モニカの復活16年

パラメーターの固定数(最後から2番目の段落のアイデア)によってモデルの複雑さが変化する理由を理解したいのですが、「パラメーターエントロピー」や「olsパラメーターエントロピー」をうまく動かせません。エントロピーの概念を使用したのは、それがうまく適合するか、これがモデルパラメーターのプロパティの実際の広く知られた名前であるためですか?前もって感謝します。
アルバロフエンテス

1
@AlvaroFuentes-エントロピーは、この意味で、情報理論に由来します。 こちらがウィキペディアの記事です。 重みをリストと考えてください。確率密度を近似するカーネル法を使用して、すべての重みのシステムのエントロピーを計算できます。ニューロンごとの平均エントロピーを見て、より高いスケールでニューロン全体を比較できます。
EngrStudent-モニカの復活

0

簡単な直観は次のとおりです。正則化のために、特徴は約を持つために標準化されるべきであることを忘れないでください。同じスケール。

最小化関数は二乗誤差の合計のみだとしましょう:

SSE

特にノイズの多いプールから機能を選択した場合、機能を追加するとこのが減少する可能性があります。この機能は偶然低下させ、過剰適合につながります。S S ESSESSE

ここで、正規化、この場合はLASSOを検討してください。最小化される関数は

SSE+λΣ|β|

追加の機能を追加すると、追加のペナルティが発生します。絶対係数の合計が大きくなります。SSEの削減は、追加のペナルティを上回るはずです。コストをかけずに追加機能を追加することはできなくなりました。

特徴の標準化と絶対係数の合計に対するペナルティの組み合わせにより、探索空間が制限され、オーバーフィッティングが少なくなります。

現在LASSO:

SSE+λΣ|β|

係数をゼロにする傾向がありますが、リッジ回帰:

SSE+λΣβ2

比例して係数を縮小する傾向があります。これは、ペナルティ機能のタイプの副作用として見ることができます。次の図はこれに役立ちます。

ここに画像の説明を入力してください

実際の正則化ペナルティ関数は、上のシアン領域で示されているように、パラメータの「予算」を与えます。

左側のLASSOでは、機能が軸上のスペースにヒットする可能性が高いことを確認してください。係数の一方をゼロに設定し、予算に応じて他方を縮小します。右側では、関数が軸にヒットし、多かれ少なかれパラメーターに予算を分散させることができ、両方のパラメーターが縮小します。SSE

https://onlinecourses.science.psu.edu/stat857/node/158から撮影した写真

要約:正則化は追加のパラメーターの追加にペナルティを科し、正則化のタイプに応じてすべての係数を縮小するか(リッジ)、または予算が許す限り他の係数を維持しながらいくつかの係数を0に設定します(投げ縄)


1
投げ縄とリッジ回帰の違いを説明しているだけですが、問題は正則化が複雑さを低下させる理由について尋ねていることです。
ソビ

このセクションをお読みください:「追加の機能を追加すると、追加のペナルティが発生します。絶対係数の合計が大きくなります。SSEの削減は、追加の追加のペナルティを上回るはずです。
spdrnl

この説明はレギュラーにのみ有効であり、スパース性以上のものが必要です。たとえば、学習モデルのすべてのパラメーター値がゼロ以外のです。しかし、それでもはその体制のモデルの複雑さを制御します。それをどう説明しますか?同様に、正則化の場合。λ λ L 2L1λλL2
ソビ

要点は、パラメーターを追加する場合のペナルティーのタイプが、さまざまな方法でパラメーターに影響を与えることです。実際には、トレーニングデータにあまり正確に適合しないパラメーターを備えたモデルを取得します。これは一種の目標でした。
spdrnl

0

入力にGuassianノイズを追加することにより、学習モデルはL2ペナルティ正則化プログラムのように動作します。

理由を確認するには、フィーチャにiidノイズが追加される線形回帰を検討します。損失は​​、誤差+重みノルムの寄与の関数になります。

派生を参照:https : //www.youtube.com/watch?v=qw4vtBYhLp0


0

大学の授業で、大きなパラメーターにペナルティを課すとオーバーフィットを減らすことができると言ったのを覚えています一般的なルールを学習しようとする代わりに、ラベル。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.