単純なニューラルネットの最小トレーニングサイズ


7

独立変数ごとに最低10ケースを推奨する多変量統計には古い経験則があります。しかし、多くの場合、各変数に適合するパラメーターが1つあります。

質問の理由:私は、15の予測変数と8つの非表示ノードを持つ1つの非表示レイヤーを持つ500のトレーニングケース(データセットの25000のうち)を使用するテキストの例に取り組んでいます。したがって、153個の重みを推定しています。500ケースのうち、129は1、残りは0です。したがって、予測されるポジティブケースよりも重みが多くなります。これは間違っているようです。結果のモデルはオーバーフィットします(ただし、検証はこの教科書の問題では扱われていません)。

それで、最低限のガイドは何ですか?10倍の入力変数?推定する10倍のパラメータ?他に何か?


関連する回答はありますが、最小値よりも望ましいサンプルサイズを参照しているようです。たとえば、ニューラルネットワークのトレーニングに必要なデータセットサイズを取得するにはどうすればよいですか。

ニューラルネットワークをトレーニングするためのバッチサイズと反復回数のトレードオフ

または未分類分類器に必要な最小トレーニングサンプルサイズ

しかし、もちろん、私は以前の良い答えを逃したかもしれません。


1
これは数か月前の興味深い質問です。質問に対する明確な回答を見つけた場合は、質問への回答を検討してください。
NULL

NNの研究者の間での入力サンプルの最小数の経験的な見積もりは、少なくともnumber of parameters squaredサンプルが必要だということです
NULL

明確な答えはまだ見つかりません。
zbicyclist 2017

回答:


4

これは一般的に答えることは不可能です。強力な予測機能を備えた問題に取り組んでいる場合、作業は簡単です。サンプルサイズが小さいほど、パフォーマンスの高いモデルが推定されます。しかし、関連性の低い機能のみの問題は、信号を見つけるのに苦労します。

極値では、すべての機能が純粋なノイズである場合、たとえ大量のデータがあっても、ネットワークはうまく一般化されません。

巧妙な正則化と機能選択が役立ちます。また、正規化と機能の選択により、特定のレベルのパフォーマンスでネットワークを推定するために必要なパラメーターの数が変わる場合、この質問は単純なガイドラインよりもさらに複雑に思われます。


1

それで、最低限のガイドは何ですか?10倍の入力変数?推定する10倍のパラメータ?

私は、パラメーターの数よりも少なくとも10倍多いサンプルの数を使用するという古典的な統計的アドバイスを読みました。もちろん、これはあいまいです。問題がうるさい場合は、100倍、または1000倍以上の要求ができます。

@Sycoraxで述べられているように、明確な簡潔な答えはありませんが、少なくともサンプルの数をパラメーターの数と同じにすると、クラスを完全に分割する超平面(この場合)を描画できることに注意してください。

問題をより正式に表現するのに役立つVapnik-Chervonenkisディメンションの概念を見てみましょう:VCディメンション

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.