なぜ正則化はデータに対するディープニューラルネットの飢えを解決しないのですか?


37

一般にニューラルネットワーク、特にディープニューラルネットワークのコンテキストで頻繁に発生する問題は、「データを大量に消費する」ことです。つまり、大きなデータセットがないとうまく機能しません。ネットワークのトレーニングに使用します。

私の理解では、これはNNet、特にディープNNetには多数の自由度があるという事実によるものです。そのため、モデルとして、NNetには非常に多数のパラメーターがあり、モデルのパラメーターの数がトレーニングデータポイントの数に比べて大きい場合、オーバーフィットする傾向が増加します。

しかし、なぜこの問題は正則化によって解決されないのでしょうか?私の知る限り、NNetsはL1とL2の正則化を使用でき、ネットワーク内のパラメーターの数を減らすことができるドロップアウトのような独自の正則化方法もあります。

節約を強制し、ネットワークのサイズを制限するような正則化方法を選択できますか?


私の考えを明確にするために:データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか?なぜ正規化がこれに役立たないのですか?


7
「では、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するようにネットワークの重みが収束しないのはなぜですか?正則化がこれに役立たないのはなぜですか?」実際、これは本当に興味深い論文になると思います。そのネットワークと問題を構築し、何が起こるかを評価します。
Sycoraxは

まあ、あなたは、あなたが正則化したとしても、後でネットワークのより深い層で勾配を減少させるという問題を抱えています。これが、人々がバッチ正規化を使用して、説明したことを効果的に行う理由です。他のアプローチはすでにこれを説明しています(LSTMなど)。ドロップアウトのような飢starに対処するのに役立つことがあります。
ベンジャミングリュンバウム


以下に@cliffabが答えているように、正規化はパフォーマンスを改善するために必要なものではありません。簡単に言えば、回転した猫の画像の束は、正規化された単一の猫の画像と同じではありません。
seanv507

1
私はまったく驚いていません。私が仕事で扱っている時系列の種類では、古いskool時系列の方法に勝る方法をまだ見つけていませんが、私は試み続けています:)
Aksakal

回答:


43

それを説明する簡単な方法は、正則化がノイズに適合しないようにすることであり、信号の形状を決定するという点ではあまり役に立たないということです。ディープラーニングを巨大な関数近似法と考えると、複雑な信号の形状を定義するために多くのデータが必要であることがわかります。

ノイズがなければ、NNの複雑さが増すと、より良い近似が得られます。NNのサイズにペナルティはありませんが、すべての場合に大きいほど良いでしょう。テイラー近似を考えてみましょう。非多項式関数の場合は、用語の数が多い方が常に優れています(数値精度の問題を無視します)。

ノイズに適合し始めるため、これはノイズの存在下で故障します。そのため、正則化が役立ちます。これにより、ノイズへの適合減少する可能性があります。そのため、非線形問題に適合させるために、より大きな NNを構築できます。

次の議論は私の答えに不可欠ではありませんが、一部のコメントに答えて、上記の答えの本文の動機付けをするために一部を追加しました。基本的に、私の答えの残りはハンバーガーの食事に伴うフランスの火のようなものです。あなたはそれを飛ばすことができます。

(Ir)relevant Case:多項式回帰

多項式回帰のおもちゃの例を見てみましょう。また、多くの関数のかなり良い近似法です。領域の関数を見てみましょう。以下のテイラー級数からわかるように、7次の展開はすでにかなり適合しているため、7 +次の多項式も非常に良好な適合であると予想できます。バツバツ33

ここに画像の説明を入力してください

次に、次の高次の多項式を、7つの観測値を持つ非常にノイズの多い小さなデータセットに適合させます。

ここに画像の説明を入力してください

多くの人が多項式について語ったことを知っています。それらは不安定であり、多項式の次数が増えると激しく振動し始めます。

ただし、問題は多項式そのものではありません。問題はノイズです。多項式をノイズの多いデータに近似する場合、近似の一部は信号ではなくノイズになります。これは、同じデータセットに適合する正確な多項式ですが、ノイズが完全に除去されています。フィット感は素晴らしいです!

6次の多項式を一意に識別するために必要なのは7回の観測だけであり、上記のテイラー近似プロットから、6次はすでにデータ範囲内。バツ

ここに画像の説明を入力してください

また、高次の多項式は、それらを定義するのに十分な観測値がないため、6次と同様に適合しないことに注意してください。それでは、100回の観測で何が起こるか見てみましょう。下のチャートでは、より大きなデータセットにより、高次の多項式をどのように適合させ、より良い適合を達成できるかがわかります!

ここに画像の説明を入力してください

すばらしいですが、問題は通常、ノイズの多いデータを処理することです。非常にノイズの多いデータの100の観測値に同じ値を当てはめた場合に何が起こるかを見てください。以下のチャートを参照してください。正方形1に戻ります。高次の多項式は恐ろしい振動近似を生成します。したがって、データセットを増やしても、モデルの複雑さを増してデータをより適切に説明するのにそれほど役立ちませんでした。これもまた、複雑なモデルが信号の形状だけでなく、ノイズの形状にも適合しているためです。

ここに画像の説明を入力してください

最後に、この問題についていくつかの不完全な正則化を試してみましょう。以下のチャートは、9次多項式回帰に適用される正則化(異なるペナルティーを伴う)を示しています。これを上記の次数(べき乗)9多項式近似と比較します。適切なレベルの正則化では、高次多項式をノイズの多いデータに近似させることができます。

ここに画像の説明を入力してください

念のため、この方法で多項式回帰を使用することを提案していません。多項式はローカルフィットに適しているため、区分的多項式を選択することをお勧めします。上のプロットから明らかなように、実際にはノイズに敏感であるため、ドメイン全体をそれらに合わせるのはよくない考えです。このコンテキストでは、ノイズが数値的であるか、他のソースからのものであるかはそれほど重要ではありません。ノイズはノイズであり、多項式はそれに情熱的に反応します。


8
また、データセットが小さい場合、ノイズと非ノイズを区別することは非常に困難です。
アレックスR.

3
実際、正則化により、過剰適合なしでより大きな NNが得られます
-Aksakal

6
@Alex-なぜデフォルトの単純なモデルになるのですか?複雑さを増すことで、まだ説明できない変動があります!そして...目的は、原因不明の変動を可能な限り減らすことです...そうでない場合、NNは可能な限り単純なモデル、つまり "0"をデフォルトにします。しかし、Aksakalが書いたように、NNがデータのその説明できない変動性をますます減らすので、説明できない変動性、つまり過適合、つまり正則化の必要性にも適合しています。
jbowman

2
もう1つは、モデリングする基礎となるプロセスが、人間の投票行動や、基本的に予測が困難な健康上の結果など、ノイズが多いと想定してください。また、データにはあらゆる種類の測定エラーがあり、場合によっては選択バイアスもあります。このようなノイズが多い信号環境では、正則化を備えたより単純なモデルを好むだけではありません。正規化に全力を尽くしたにもかかわらず、非常に正確に大量のノイズを測定しないように、より少ないデータを好むかもしれません。
均衡

2
@BrashEquilibrium-素晴らしい点。150近くの機能を備えた勾配ブースティングマシンを使用して大規模な予測を行っており、その多くは高いノイズレベルを備えていますが(予測品質は向上しています)、GBMがトレーニングするデータの20%を提供することを発見しました他のすべての正則化メカニズムが適用されている場合でも、50%以上を与えるよりも良い予測の結果になります。
jbowman

7

この時点では、特定の正則化方法が成功する場合と失敗する場合とその理由がよく理解されていません。実際、そもそもディープラーニングが機能する理由はまったく理解されていません。

十分に深いニューラルネットは、適切に動作するトレーニングデータのほとんどを完全に記憶できるという事実を考慮すると、特定のディープネットに適したものよりもかなり間違った解決策があります。大まかに言って、正則化は、これらの「間違った」ソリューションのモデルの表現力を制限する試みです。「間違った」は特定のドメインにとって重要であると考えるヒューリスティックによって定義されます。しかし、ヒューリスティックを定義して、「正しい」表現力を失わないようにすることは難しい場合がよくあります。これの良い例は、L2ペナルティです。

通常、正規化の一形態と見なされる方法はほとんどありませんが、MLのすべてのアプリケーション領域に適用できます。ビジョン、NLP、および構造化予測の問題にはすべて、それらの特定のドメインに対して実験的に有効であることが実証されている正則化手法の独自のクックブックがあります。ただし、これらのドメイン内でも、これらの手法は特定の状況でのみ有効です。たとえば、深い残差ネットワークでのバッチ正規化により、一般化が個別に改善されることが示されているにもかかわらず、ドロップアウトが冗長になるように見えます。

別の注意として、正則化という用語は非常に広範であるため、それについて何かを理解するのが難しくなると思います。畳み込みがパラメーター空間をピクセルに関して指数関数的に制限するという事実を考慮すると、畳み込みニューラルネットワークはバニラニューラルネット上の正則化の形と考えることができます。


最初の段落に同意するかどうかはわかりません。
アンデルビグリ

3
500文字で説明するのは難しいが、世界のトップ研究者たちは、SGDの成功は十分に理解されていないと主張している。たとえば、OpenAIのIlya S.を使用します:youtube.com/watch
オースティンシン

完全に同意する-それは、多項式近似ではなく、実際のネットとの理由が容易である理由はおそらく理由を...
P-GN

3

この問題が根本的な理由を示す定理の1つのクラスは、無料昼食定理でありません。特定の正則化が役立つサンプルが限られているすべての問題について、同じ正則化が事態を悪化させる別の問題があります。オースティンが指摘するように、一般的にL1 / L2正則化は多くの現実の問題に役立つことがわかりますが、これは単なる観察であり、NFLの定理により、一般的な保証はありません。


3

高レベルでは、DNN(ディープニューラルネットワーク)の誘導バイアスは強力ですが、ややゆるすぎるか、十分に考えられていないと思います。つまり、DNNは何が起こっているかに関する多くの表面統計をキャプチャしますが、より深い因果的/組成的高レベル構造に到達することはできません。(畳み込みは、貧乏人の誘導バイアス仕様と見なすことができます)。

さらに、機械学習コミュニティでは、一般化するための最良の方法(データがほとんどない状態で良好な推論/予測を行う)は、データを生成した最短のプログラムを見つけることであると考えられています。しかし、プログラムの誘導/合成は難しく、効率的にそれを行う良い方法がありません。そのため、代わりに、回路探索である厳密な近似に依存し、逆伝播を使用してそれを行う方法を知っています。ここで、Ilya Sutskeverがそのアイデアの概要を説明します。


実際のプログラムとディープラーニングモデルとして表されるモデルの一般化能力の違いを説明するために、この論文の1つを示します。物理的なシーン理解のエンジンとしてのシミュレーションです。

ここに画像の説明を入力してください

(A)IPE [直観的な物理エンジン]モデルは、シーン上の分布をインスタンス化する入力(知覚、言語、メモリ、画像など)を受け取り(1)、分布に対する物理の影響をシミュレートします(2)、そして、他の感覚運動および認知機能への出力の結果を集約します(3)

ここに画像の説明を入力してください

(B)Exp。1(落下しますか?)タワー刺激。赤い境界線のある塔は実際には微妙にバランスが取れており、他の2つは同じ高さですが、青い縁取りのあるものはモデルと人々によって落下する可能性がはるかに低いと判断されます。

(C)Exp。の確率的IPEモデル(x軸)対人間の判断平均(y軸)1.σおよびotherの他の値の相関関係については、図S3を参照してください。各ポイントは1つのタワー(SEM付き)を表し、3つの色付きの円はBの3つのタワーに対応しています。

(D)グラウンドトゥルース(非確率的)対人間の判断(経験1)。不確実性を表していないため、Bの赤枠塔など、多くの刺激に対する人々の判断を捉えることはできません(これらのケースは、自然にシーンがまれで、構成がより安定している、または不安定であり、IPEは、刺激に対してよりもグラウンドトゥルースとの相関性が高いことが期待されます。)

ここでの私のポイントは、モデルが人間が物理的な判断をどのように行うかについての適切なバイアスをキャプチャするため、Cでの適合は本当に良いということです。これは、モデルの実際の物理ので、大部分である(それがいることを覚えている実際の物理エンジン)と不確実性に対処することができます。

さて、明らかな質問は、ディープラーニングでそれを行うことができますか?これは、レーラーらがこの作品で行ったことです:ブロックタワーの物理的直観の学習

彼らのモデル: ここに画像の説明を入力してください

彼らのモデルは実際に目の前のタスクにかなり適しています(落下するブロックの数、さらには落下の方向を予測する)

ここに画像の説明を入力してください

ただし、2つの大きな欠点があります。

  • 適切にトレーニングするには大量のデータが必要です
  • 一般化は浅い方法でのみ行います。よりリアルな画像に転送したり、1つまたは2つのブロックを追加または削除できます。しかし、それを超えると、パフォーマンスは壊滅的に低下します。3または4ブロックを追加し、予測タスクを変更します...

これらの2つのアプローチについて、Tenenbaumのラボで行われた比較研究がありました:近似確率シミュレーションの比較評価と人間の物理的シーンの理解のアカウントとしてのディープニューラルネットワーク

ディスカッションセクションの引用:

トレーニングデータが少ないため、CNNのパフォーマンスは低下します。AlexNet(事前トレーニングされていない)は200,000のトレーニング画像でより良いパフォーマンスを発揮しますが、データ不足の影響も受けますが、事前トレーニングされたAlexNetは少量のトレーニング画像からより良く学習できます。私たちのタスクでは、両方のモデルのパフォーマンスがIPEモデルと人間に匹敵するために、約1,000の画像が必要です。

また、CNNには、ブロック数の変更など、小さなシーンバリエーションでも一般化機能が制限されています。対照的に、IPEモデルは、スタック内のブロックの数に応じて人間の判断の精度が低下する方法を自然に一般化し、キャプチャします。

まとめると、これらの結果は、ニューラルネットワーク(または少なくともCNN)が現在キャプチャしていない人間の認知に関する基本的なもの、つまり世界の因果プロセスの精神モデルの存在を示しています。因果的メンタルモデルをシミュレートして、質的に新規な状況で何が起こるかを予測できます。広く一般化するために膨大で多様なトレーニングデータを必要としませんが、本質的に特定の種類のエラー(たとえば、状態による不確実性の伝播)ダイナミクスノイズ)は、シミュレーションによる動作のおかげです。

私が作りたいポイントに戻ります:ニューラルネットワークは強力なモデルですが、因果的、構成的、複雑な構造を表現する能力に欠けているようです。そして、彼らは多くのトレーニングデータを必要とすることでそれを補います。

そして、あなたの質問に戻ります。広い誘導バイアスと、ニューラルネットワークが因果関係/構成性をモデル化しないという事実が、非常に多くのトレーニングデータを必要とする理由です。正則化は一般化されているため、大した修正ではありません。より良い修正方法は、バイアスを変更することです。ヒントンは現在、全体/部品ジオメトリのモデリング用のカプセル、またはリレーションのモデリング用の相互作用ネットワークで試みています


2

まず第一に、ディープラーニングのための使用中および積極的な研究の両方で、多くの正則化方法があります。そのため、あなたの前提は完全には定かではありません。

使用中の方法に関して、重み減衰は、勾配降下による重みのL2ペナルティの直接の実装です。重みの二乗ノルムの勾配を取り、各方向でこの方向に小さなステップを追加します。ドロップアウトは、一種の平均化された構造を課す正則化の一形態とも見なされます。これは、共有パラメータを持つネットワークのアンサンブルに対するL2ペナルティのようなものを暗示しているようです。

おそらく、これらの手法または他の手法のレベルを上げて、小さなサンプルに対処することができます。ただし、正規化は事前知識の賦課を意味することに注意してください。重みのL2ペナルティは、たとえば重みのガウス事前分布を意味します。正則化の量を増やすことは、基本的に、事前知識がますます確実になり、結果を事前に向けることを示しています。したがって、あなたはそれを行うことができ、あまり適合しませんが、偏った出力は吸う可能性があります。明らかに、解決策はより良い事前知識です。画像認識の場合、これは問題の統計に関してはるかに構造化された事前を意味します。この方向の問題は、あなたが多くの分野の専門知識を課していることであり、人間の専門知識を課すことを避けることが、ディープラーニングを使用した理由の1つです。


バイアスについて言及する場合は+1。バイアスと分散の観点からこの全体を説明してみませんか?「過剰適合」には正確な数学的定義がなく、存在しない二分法(「過剰適合」/「過剰適合なし」)を意味します。
ジョシュ

2

私の考えを明確にするために:データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか?なぜ正規化がこれに役立たないのですか?

ニューラルネットはこのようにトレーニングできます。適切なL1正則化を使用すると、重みの多くをゼロにすることができ、これにより、ニューラルネットが1程度の線形回帰ニューロンと他の多くのゼロネロンの連結のように動作します。はい、そうです-ニューラルネットワークのサイズまたは表現力を制限するために使用できるL1 / L2正則化など。

実際、モデル自体のサイズは一種の正則化です-モデルを大きくすると、問題に関する事前知識が注入されます。つまり、問題は非常に複雑であるため、表現力の高いモデルが必要です。モデルを小さくすると、問題が単純であるという知識を注入するので、モデルはあまり容量を必要としません。

そして、これは、L2正則化が各ニューロン(重み)の寄与は小さいがゼロ以外であるべきという事前知識を注入するため、L2正則化はネットワークを「スパース」にしないことを意味します。したがって、ネットワークは、ニューロンの小さなセットのみを使用するのではなく、各ニューロンを使用します。


1

L2L1

ここで重要なのは、正規化が必ずしも役立つとは限らないということです。むしろ、おそらく正しい思われるものに正則化することは非常に役立ちますが、間違った方向に正則化することは明らかに悪いことです。

L2

しかし今、私たちのデータがディープニューラルネットワークに供給された猫の画像であるとします。実際、「先のとがった耳」が猫の識別に非常に役立つ場合、ペナルティを減らしてこの予測力を高めることができます。しかし、ネットワーク内のどこでこれが表現されるはわかりません!システムの一部がネットワーク全体を支配しないようにペナルティを導入することはできますが、それ以外では、意味のある方法で正則化を導入することは困難です。

要約すると、理解できないシステムに以前の情報を組み込むことは非常に困難です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.