タイトルがすべてを物語っています-GRUレイヤーにはトレーニング可能なパラメーターがいくつありますか?この種の質問は、パラメーターごとのパフォーマンスの観点から、長期短期記憶(LSTM)ユニットとGRUなど、さまざまなRNNレイヤータイプのモデルを比較しようとするときによく出てきます。トレーニング可能なパラメーターの数が増えると、一般に学習するネットワークの容量が増えるため、パラメーターごとに代替モデルを比較すると、GRUとLSTMの相対的な有効性を比較することができます。
タイトルがすべてを物語っています-GRUレイヤーにはトレーニング可能なパラメーターがいくつありますか?この種の質問は、パラメーターごとのパフォーマンスの観点から、長期短期記憶(LSTM)ユニットとGRUなど、さまざまなRNNレイヤータイプのモデルを比較しようとするときによく出てきます。トレーニング可能なパラメーターの数が増えると、一般に学習するネットワークの容量が増えるため、パラメーターごとに代替モデルを比較すると、GRUとLSTMの相対的な有効性を比較することができます。
回答:
Rahul DeyとFathi M. Salemによると、「Gated Recurrent Unit(GRU)ニューラルネットワークのゲートバリアント」:
... GRU RNNのパラメーターの総数は等しくなります。
ここで、は入力次元で、は出力次元です。これは、これらのサイズのウェイトマトリックスを必要とする演算が3セットあるためです。