2-3百万の記事で大きなLSTMネットワークをトレーニングしようとしていますが、メモリエラーに苦労しています(AWS EC2 g2x2largeを使用しています)。
解決策の1つはを減らすことであることがわかりましたbatch_size
。ただし、このパラメーターがメモリ効率の問題にのみ関連するのか、それが結果に影響するのかはわかりません。実際のところ、batch_size
例で使用されているのは通常2のべき乗であることに気づきましたが、どちらもわかりません。
ネットワークのトレーニングに時間がかかるかどうかは気にしませんが、これを減らすbatch_size
と予測の品質が低下するかどうかを知りたいです。
ありがとう。