回答:
最近、これらのアイデアを試すために使用できるブラウザーアプリを少し作成しました。ScatterplotSmoothers(*)。
これは、低次の多項式近似で作成したいくつかのデータです
偏りをなくすために、曲線の次数を3に増やすことができますが、問題は残り、3次曲線は依然として硬すぎます
だから私たちは学位を上げ続けていますが、今度は反対の問題が生じます
この曲線はデータを厳密に追跡しすぎており、データ内の一般的なパターンによってそれほどうまく引き出されない方向に飛び去る傾向があります。これが正則化の出番です。同じ次数曲線(10)と適切に選択された正則化
とてもいいフィット感が得られます!
上記で適切に選択された1つの側面に少し焦点を当てる価値があります。多項式をデータに当てはめている場合、次数の選択肢の離散セットがあります。次数3の曲線がアンダーフィットで、次数4の曲線がオーバーフィットの場合、真ん中に行く場所はありません。正則化はこの問題を解決します。これは、再生する複雑なパラメーターの連続した範囲を提供するためです。
どのように「私たちは本当にすてきなフィットを得る!」と主張しますか?私にとっては、すべて同じように見えます。良いものと悪いもののどちらを決めるのに、どの理性を使用していますか?
公正なポイント。
ここで行っている仮定は、適切なモデルには残差に識別可能なパターンがないことです。今、私は残差をプロットしていないので、写真を見るときに少し作業をしなければなりませんが、あなたの想像力を使うことができるはずです。
最初の画像では、2次曲線がデータに適合しており、残差に次のパターンがあります。
これらの動作をローカルバイアスと呼びますが、曲線がデータの条件付き平均をうまく近似していない領域があります。
これを3次スプラインを使用した最後の近似と比較します。フィットがデータポイントの重心を正確に通り抜けているように見えない領域を目で見つけることはできません。これは、一般的に(不正確ではありますが)良い意味です。
代わりに、あなたが説明しているような状況では、自然の3次スプラインと正則化を使用することをお勧めします。アプリにいくつかのスプラインをフィットさせることで、自分で確認できます。
(*)最新のjavascript機能(およびサファリやIEで修正するための全体的な遅延)を使用しているため、これはchromeとfirefoxでのみ機能すると考えています。興味があるなら、ソースコードはここにあります。
いいえ、同じではありません。たとえば、正則化のない2次多項式を、それを含む4次多項式と比較します。後者は、正則化手順(おそらく交差検証)のペナルティサイズを選択するために使用される手順に従って、予測精度を向上させるように見える限り、3番目と4番目のべき乗の大きな係数を推定できます。これは、正則化の利点の1つが、モデルの複雑さを自動的に調整して、オーバーフィットとアンダーフィットのバランスをとることができることを示しています。
多項式の場合、係数のわずかな変更でも、指数が大きくなると違いが生じます。
すべての答えは素晴らしく、マットと同様のシミュレーションを行って、理由を示す別の例を示します 、正則化を伴う複雑なモデルが単純なモデルよりも優れている。
直感的に説明できるように例えます。
2人が同じ問題を解決している場合、通常、大学院生はより良い解決策をとるでしょう。なぜなら、経験と知識に関する洞察力だからです。
図1は、同じデータに対する4つのフィッティングを示しています。4つの継手は、ライン、放物線、3次モデル、5次モデルです。5次モデルには過剰適合の問題がある可能性があります。
一方、2番目の実験では、正則化のレベルが異なる5次モデルを使用します。最後のモデルを2次モデルと比較します。(2つのモデルが強調表示されています)最後のモデルは放物線に似ています(モデルの複雑さはほぼ同じです)が、データの柔軟性がわずかに優れています。