確率的勾配降下法を実行するときにミニバッチサイズの選択を調べる文献はありますか?私の経験では、これは経験的な選択であるように思われ、通常、相互検証またはさまざまな経験則を使用して見つかります。
検証エラーが減少するにつれて、ミニバッチのサイズを徐々に大きくすることは良い考えですか?これは汎化エラーにどのような影響を及ぼしますか?非常に小さなミニバッチを使用して、モデルを数十万回更新する方がよいですか?非常に小さい値とバッチの間のどこかでバランスの取れた数値を使用した方がよいでしょうか?
ミニバッチのサイズをデータセットのサイズ、またはデータセット内の予想されるフィーチャ数に合わせてスケーリングする必要がありますか?
私は明らかにミニバッチ学習スキームの実装について多くの質問をしています。残念ながら、私が読んだほとんどの論文は、このハイパーパラメータをどのように選択したかを具体的に示していません。私はYann LeCunのような著者から、特に論文のTricks of the Tradeコレクションから、いくつかの成功を収めてきました。しかし、私はこれらの質問が完全に対処されているのを見ていません。誰かが論文の推奨事項、または機能を学習するときに適切なミニバッチサイズを決定するために使用できる基準に関するアドバイスを持っていますか?