次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか?


32

たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量(たとえば、多項式の最大指数)と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか?そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか?

回答:


49

最近、これらのアイデアを試すために使用できるブラウザーアプリを少し作成しました。ScatterplotSmoothers(*)。

これは、低次の多項式近似で作成したいくつかのデータです

二次適合

0.60.850.85

偏りをなくすために、曲線の次数を3に増やすことができますが、問題は残り、3次曲線は依然として硬すぎます

キュービックフィット

だから私たちは学位を上げ続けていますが、今度は反対の問題が生じます

十度フィット

この曲線はデータを厳密に追跡しすぎており、データ内の一般的なパターンによってそれほどうまく引き出されない方向に飛び去る傾向があります。これが正則化の出番です。同じ次数曲線(10)と適切に選択された正則化

度10の正則化

とてもいいフィット感が得られます!

上記で適切に選択された1つの側面に少し焦点を当てる価値があります。多項式をデータに当てはめている場合、次数の選択肢の離散セットがあります。次数3の曲線がアンダーフィットで、次数4の曲線がオーバーフィットの場合、真ん中に行く場所はありません。正則化はこの問題を解決します。これは、再生する複雑なパラメーターの連続した範囲を提供するためです。

どのように「私たちは本当にすてきなフィットを得る!」と主張しますか?私にとっては、すべて同じように見えます。良いものと悪いもののどちらを決めるのに、どの理性を使用していますか?

公正なポイント。

ここで行っている仮定は、適切なモデルには残差に識別可能なパターンがないことです。今、私は残差をプロットしていないので、写真を見るときに少し作業をしなければなりませんが、あなたの想像力を使うことができるはずです。

最初の画像では、2次曲線がデータに適合しており、残差に次のパターンがあります。

  • 0.0から0.3までは、曲線の上下にほぼ均等に配置されます。
  • 0.3から約0.55 までは、すべてのデータポイントが曲線の上にあります。
  • 0.55から約0.85 までは、すべてのデータポイントが曲線の下にあります。
  • 0.85以降は、すべて曲線を上回っています。

これらの動作をローカルバイアスと呼びますが、曲線がデータの条件付き平均をうまく近似していない領域があります。

これを3次スプラインを使用した最後の近似と比較します。フィットがデータポイントの重心を正確に通り抜けているように見えない領域を目で見つけることはできません。これは、一般的に(不正確ではありますが)良い意味です。


2

  • データの境界でのそれらの動作は、正則化されていても非常に混oticとしている場合があります。
  • 決してローカルではありません。1つの場所でデータを変更すると、非常に異なる場所での適合に大きく影響する可能性があります。

代わりに、あなたが説明しているような状況では、自然の3次スプラインと正則化を使用することをお勧めします。アプリにいくつかのスプラインをフィットさせることで、自分で確認できます。

ナチュラルキュービックスプライン

(*)最新のjavascript機能(およびサファリやIE​​で修正するための全体的な遅延)を使用しているため、これはchromeとfirefoxでのみ機能すると考えています。興味があるなら、ソースコードはここにあります。


3
ありがとう、そしてあなたのブラウザツールは素晴らしいです-私はそのような小さなインタラクティブなデモが大好きです!
カルニボーラス

@Karnivaurusありがとう、助けてくれてうれしいです。このツールは、JavaScriptを書くようにビルド、私に楽しかったです。)
マシュードゥルーリー

3
+6。このツールを書くのは良い仕事です!スレッドが十分に古くなり、賞金がかかると、賞金がもらえます。
アメーバは、モニカーを復活させる

4
+1これは本当に良い答えです。高次多項式近似の不安定性を示す1つの方法は、各点について1つのデータ点を削除して高次回帰をプロットし、それをRCSソリューションと比較することです。
シコラックスは、モニカーを復活させる

1
@MatthewDrury「制限された3次スプライン」-申し訳ありません。
シコラックスは、モニカを復活させる

4

いいえ、同じではありません。たとえば、正則化のない2次多項式を、それを含む4次多項式と比較します。後者は、正則化手順(おそらく交差検証)のペナルティサイズを選択するために使用される手順に従って、予測精度を向上させるように見える限り、3番目と4番目のべき乗の大きな係数を推定できます。これは、正則化の利点の1つが、モデルの複雑さを自動的に調整して、オーバーフィットとアンダーフィットのバランスをとることができることを示しています。


しかし、4次多項式に正則化を追加すると、その表現力を最大限に活用できなくなります。したがって、十分な正則化により、表現力は、2次多項式と同じくらい表現力のあるポイントまで低下します。いや?
カルニボーラス

1
ペナルティサイズを前もって修正したとしたら、その意味は何でしょうか?ペナルティサイズは、データに基づいて選択する必要があります。
-Kodiologist

4

多項式の場合、係数のわずかな変更でも、指数が大きくなると違いが生じます。

L2


2

すべての答えは素晴らしく、マットと同様のシミュレーションを行って、理由を示す別の例を示します 、正則化を伴う複雑なモデルが単純なモデルよりも優れている

直感的に説明できるように例えます。

  • ケース1には、知識が限られた高校生しかいない(正則化のない単純なモデル)
  • ケース2には大学院生がいますが、問題を解決するために高校の知識のみを使用するように制限します。(正則化を伴う複雑なモデル)

2人が同じ問題を解決している場合、通常、大学院生はより良い解決策をとるでしょう。なぜなら、経験と知識に関する洞察力だからです。

図1は、同じデータに対する4つのフィッティングを示しています。4つの継手は、ライン、放物線、3次モデル、5次モデルです。5次モデルには過剰適合の問題がある可能性があります。

ここに画像の説明を入力してください

一方、2番目の実験では、正則化のレベルが異なる5次モデルを使用します。最後のモデルを2次モデルと比較します。(2つのモデルが強調表示されています)最後のモデルは放物線に似ています(モデルの複雑さはほぼ同じです)が、データの柔軟性がわずかに優れています。

ここに画像の説明を入力してください


1
「おおむね同じモデルの複雑さを持っています」...それは視覚的には「明らかな」比較ですが、それを測定する数学的な方法はありますか?
シルバーフィッシュ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.