タグ付けされた質問 「gru」

1
ゲーテッドリカレントユニット(GRU)リカレントニューラルネットワーク(RNN)レイヤーにはいくつのパラメーターがありますか?
タイトルがすべてを物語っています-GRUレイヤーにはトレーニング可能なパラメーターがいくつありますか?この種の質問は、パラメーターごとのパフォーマンスの観点から、長期短期記憶(LSTM)ユニットとGRUなど、さまざまなRNNレイヤータイプのモデルを比較しようとするときによく出てきます。トレーニング可能なパラメーターの数が増えると、一般に学習するネットワークの容量が増えるため、パラメーターごとに代替モデルを比較すると、GRUとLSTMの相対的な有効性を比較することができます。

2
tf.nn.dynamic_rnn()の出力は何ですか?
私は公式文書から私が何を理解しているかについて確信がありません、それは言う: 戻り値:ペア(出力、状態)ここで: outputs:RNN出力テンソル。 time_major == False(デフォルト)の場合、これはTensorシェイプになります: [batch_size, max_time, cell.output_size]。 の場合time_major == True、これはTensorシェイプになります[max_time, batch_size, cell.output_size]。 場合注は、cell.output_size整数またはTensorShapeオブジェクトの(おそらくネスト)タプルは、次に、出力タプルが、cell.output_sizeと同じ構造を有するにおける形状データに対応する形状を有するテンソルを含むであろうcell.output_size。 state:最終状態。cell.state_sizeがintの場合、これはShapedになります[batch_size, cell.state_size]。TensorShapeの場合、これは整形され[batch_size] + cell.state_sizeます。それが(おそらくネストされた)intまたはTensorShapeのタプルである場合、これは対応する形状を持つタプルになります。セルがLSTMCellsの場合、状態は各セルのLSTMStateTupleを含むタプルになります。 であるoutput[-1]は常に(RNN、GRU、LSTMすなわち3つのすべての細胞型において)状態に(リターンタプルの2番目の要素)を等しく?どこにでもある文献は、隠された状態という用語の使用においては自由主義的すぎると思います。3つすべてのセルの非表示状態がスコアになりますか?

1
KerasでLSTMまたはGRUをトレーニングすると、突然精度が低下する
私のリカレントニューラルネットワーク(LSTM、またはGRU)は、私が説明できない方法で動作します。トレーニングが開始され、突然精度が低下する(そして、損失が急速に増加する)ときに、トレーニングとテストの両方のメトリックが適切にトレーニングされます(結果はかなり良く見えます)。時々、ネットはおかしくなり、ランダムな出力を返し、時々(与えられた3つの例の最後のように)、すべての入力に同じ出力を返し始めます。 あなたが持っています。この動作のための任意の説明を?どんな意見でも大歓迎です。以下のタスクの説明と図を参照してください。 タスク:単語からword2vecベクトルを予測する 入力:独自のword2vecモデル(正規化済み)があり、ネットワークに単語(文字で文字)を入力します。単語にパディングします(下の例を参照)。 例:フットボールという単語があり、100次元幅のword2vecベクトルを予測したいとします。次に、入力は$football$$$$$$$$$$です。 動作の3つの例: 単層LSTM model = Sequential([ LSTM(1024, input_shape=encoder.shape, return_sequences=False), Dense(w2v_size, activation="linear") ]) model.compile(optimizer='adam', loss="mse", metrics=["accuracy"]) 単層GRU model = Sequential([ GRU(1024, input_shape=encoder.shape, return_sequences=False), Dense(w2v_size, activation="linear") ]) model.compile(optimizer='adam', loss="mse", metrics=["accuracy"]) 二重層LSTM model = Sequential([ LSTM(512, input_shape=encoder.shape, return_sequences=True), TimeDistributed(Dense(512, activation="sigmoid")), LSTM(512, return_sequences=False), Dense(256, activation="tanh"), Dense(w2v_size, activation="linear") ]) model.compile(optimizer='adam', loss="mse", …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.