独立変数ごとに最低10ケースを推奨する多変量統計には古い経験則があります。しかし、多くの場合、各変数に適合するパラメーターが1つあります。
質問の理由:私は、15の予測変数と8つの非表示ノードを持つ1つの非表示レイヤーを持つ500のトレーニングケース(データセットの25000のうち)を使用するテキストの例に取り組んでいます。したがって、153個の重みを推定しています。500ケースのうち、129は1、残りは0です。したがって、予測されるポジティブケースよりも重みが多くなります。これは間違っているようです。結果のモデルはオーバーフィットします(ただし、検証はこの教科書の問題では扱われていません)。
それで、最低限のガイドは何ですか?10倍の入力変数?推定する10倍のパラメータ?他に何か?
関連する回答はありますが、最小値よりも望ましいサンプルサイズを参照しているようです。たとえば、ニューラルネットワークのトレーニングに必要なデータセットサイズを取得するにはどうすればよいですか。
ニューラルネットワークをトレーニングするためのバッチサイズと反復回数のトレードオフ
しかし、もちろん、私は以前の良い答えを逃したかもしれません。
number of parameters squared
サンプルが必要だということです