それを説明する簡単な方法は、正則化がノイズに適合しないようにすることであり、信号の形状を決定するという点ではあまり役に立たないということです。ディープラーニングを巨大な関数近似法と考えると、複雑な信号の形状を定義するために多くのデータが必要であることがわかります。
ノイズがなければ、NNの複雑さが増すと、より良い近似が得られます。NNのサイズにペナルティはありませんが、すべての場合に大きいほど良いでしょう。テイラー近似を考えてみましょう。非多項式関数の場合は、用語の数が多い方が常に優れています(数値精度の問題を無視します)。
ノイズに適合し始めるため、これはノイズの存在下で故障します。そのため、正則化が役立ちます。これにより、ノイズへの適合が減少する可能性があります。そのため、非線形問題に適合させるために、より大きな NNを構築できます。
次の議論は私の答えに不可欠ではありませんが、一部のコメントに答えて、上記の答えの本文の動機付けをするために一部を追加しました。基本的に、私の答えの残りはハンバーガーの食事に伴うフランスの火のようなものです。あなたはそれを飛ばすことができます。
(Ir)relevant Case:多項式回帰
多項式回帰のおもちゃの例を見てみましょう。また、多くの関数のかなり良い近似法です。領域の関数を見てみましょう。以下のテイラー級数からわかるように、7次の展開はすでにかなり適合しているため、7 +次の多項式も非常に良好な適合であると予想できます。罪(x )X ∈ (- 3 、3 )
次に、次の高次の多項式を、7つの観測値を持つ非常にノイズの多い小さなデータセットに適合させます。
多くの人が多項式について語ったことを知っています。それらは不安定であり、多項式の次数が増えると激しく振動し始めます。
ただし、問題は多項式そのものではありません。問題はノイズです。多項式をノイズの多いデータに近似する場合、近似の一部は信号ではなくノイズになります。これは、同じデータセットに適合する正確な多項式ですが、ノイズが完全に除去されています。フィット感は素晴らしいです!
6次の多項式を一意に識別するために必要なのは7回の観測だけであり、上記のテイラー近似プロットから、6次はすでにデータ範囲内。罪(x )
また、高次の多項式は、それらを定義するのに十分な観測値がないため、6次と同様に適合しないことに注意してください。それでは、100回の観測で何が起こるか見てみましょう。下のチャートでは、より大きなデータセットにより、高次の多項式をどのように適合させ、より良い適合を達成できるかがわかります!
すばらしいですが、問題は通常、ノイズの多いデータを処理することです。非常にノイズの多いデータの100の観測値に同じ値を当てはめた場合に何が起こるかを見てください。以下のチャートを参照してください。正方形1に戻ります。高次の多項式は恐ろしい振動近似を生成します。したがって、データセットを増やしても、モデルの複雑さを増してデータをより適切に説明するのにそれほど役立ちませんでした。これもまた、複雑なモデルが信号の形状だけでなく、ノイズの形状にも適合しているためです。
最後に、この問題についていくつかの不完全な正則化を試してみましょう。以下のチャートは、9次多項式回帰に適用される正則化(異なるペナルティーを伴う)を示しています。これを上記の次数(べき乗)9多項式近似と比較します。適切なレベルの正則化では、高次多項式をノイズの多いデータに近似させることができます。
念のため、この方法で多項式回帰を使用することを提案していません。多項式はローカルフィットに適しているため、区分的多項式を選択することをお勧めします。上のプロットから明らかなように、実際にはノイズに敏感であるため、ドメイン全体をそれらに合わせるのはよくない考えです。このコンテキストでは、ノイズが数値的であるか、他のソースからのものであるかはそれほど重要ではありません。ノイズはノイズであり、多項式はそれに情熱的に反応します。