重みよりも少ないトレーニングサンプルでニューラルネットワークを(理論的に)トレーニングできますか?


12

まず、ニューラルネットワークをトレーニングするために必要なサンプルサイズの一般的な数はありません。それは、タスクの複雑さ、データのノイズなど、あまりにも多くの要因に依存します。そして、私が持っているトレーニングサンプルが多いほど、私のネットワークは良くなります。

しかし、疑問に思っていました。タスクが十分に「単純」であると仮定すると、重みよりも少ないトレーニングサンプルでニューラルネットワークをトレーニングすることは理論的に可能ですか?これがうまくいった例を誰かが知っていますか?それとも、このネットワークはほぼ確実にパフォーマンスが低下しますか?

たとえば、多項式回帰を考えると、4次の多項式(つまり、5つの自由パラメーター)を4つのデータポイントにのみ適合させることはできません。重みの数を自由パラメーターの数と見なして、ニューラルネットワークに同様のルールはありますか?


はい:重みがランダムに初期化されている場合、トレーニングサンプルがゼロであっても、理論的には完全にトレーニングされたニューラルネットワークを取得できます。(コメントではなく、コメントとして投稿します。これは実際にあなたが求めていることではないことがわかっているからです。)
Darren Cook

回答:


17

人々は大規模なネットワークで常にそれを行っています。たとえば、有名なAlexNetネットワークには約6000万のパラメーターがありますが、最初にトレーニングされたImageNet ILSVRCに​​は120万の画像しかありません。

5パラメータの多項式を4つのデータポイントに適合させない理由は、データポイントに正確に適合する関数を常に見つけることができるが、他の場所では無意味なことを行うためです。まあ、ようた最近指摘 AlexNet、および同様のネットワークができ、任意のランダムなラベルがImageNetに適用フィットし、単に彼らがトレーニングのポイントよりも非常に多くの多くのパラメータを持っていると思われるので、それらすべてを覚えます。しかし、確率論的勾配降下最適化プロセスと組み合わされたネットワークの事前知識についての何かは、実際には、これらのモデルに実際のラベルを付けた場合でも、新しいデータポイントに一般化できることを意味します。それがなぜ起こるか私達はまだ本当に理解していません。


2
+1。多項式回帰との比較のためにそれを追加してもよいのですが、サンプルは非常に多次元であるとも考えます。ImageNetの平均画像解像度は約469x387ピクセルです。256x256にトリミングすると、120万の65k入力パラメーターがあり、各サンプル内で高度に相関しているため、ニューラルネットワーク(特に畳み込みNN)により多くの情報が提供されます。多項式回帰の場合よりも。
jjmontes 2017

3
@jjmontesは真実ですが、主な謎は、これらのネットワークには、記憶と一般化の両方を行う能力があるということです(まあ)。つまり、ランダムなラベルを使用してトレーニングデータを粉砕し、一般化することができます。これは、従来のMLメソッドに見られるものではありません。
Amelio Vazquez-Reina

6

決定が不十分なシステムは、データ以外の制約を課さない場合にのみ決定が不足します。あなたの例に忠実に、4度の多項式を4つのデータポイントに当てはめると、データによって制約されない自由度が1つあることを意味します。これにより、同等の優れた解の(係数空間内の)線が残ります。ただし、さまざまな正則化手法を使用して、問題を扱いやすくすることができます。たとえば、係数のL2ノルム(つまり、二乗和)にペナルティを課すことにより、最高の適合性を持つ一意の解が常に1つあることを確認できます。

正則化手法はニューラルネットワークにも存在するため、質問への短い答えは「はい、できます」です。特に興味深いのは、「ドロップアウト」と呼ばれる手法です。この手法では、重みを更新するたびに、ノードの特定のサブセットをネットワークからランダムに「ドロップ」します。つまり、学習アルゴリズムの特定の反復では、これらのノードが存在しないふりをします。ドロップアウトがなければ、ネットは、正しく連携して動作するすべてのノードに依存する入力の非常に複雑な表現を学習できます。そのような表現は、一般化するパターンを見つけるのではなく、トレーニングデータを「記憶」する可能性があります。ドロップアウトにより、ネットワークがすべてのノードを一度に使用してトレーニングデータを適合させることができなくなります。一部のノードが欠落している場合でもデータを適切に表現できる必要があります。

また、ドロップアウトを使用する場合、トレーニングサンプルよりも多くの重みを学習している場合でも、トレーニング中の任意の時点での自由度は実際にはトレーニングサンプルの数よりも小さくなる可能性があることに注意してください。


2
これは、ディープネットで明示的な正則化が果たす役割を過大評価している可能性があります。私の回答で参照したこの論文では、ドロップアウトやその他の形式の正則化が、ネットワークが記憶できる量にわずかな影響しか与えないことを示しています。ただし、基本的な話は正しいかもしれませんが、主な正則化はSGDの暗黙の正則化です。これはまだやや曖昧です。
Dougal 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.