統計とビッグデータ tensorflow

2

LSTMがバニラリカレントニューロンネットワークよりも情報ラッチングのパフォーマンスが悪い理由

ベンジオらによる「勾配降下法による長期依存性の学習は難しい」という論文から実験をやり直すことで、LSTMがバニラ/単純リカレントニューラルネットワーク（SRNN）よりも長い期間情報を記憶できる理由をよく理解したいと思います。1994。その論文の図1と2を参照してください。シーケンスが指定されている場合、タスクは単純です。高い値（1など）で始まる場合、出力ラベルは1です。低い値（たとえば-1）で始まる場合、出力ラベルは0です。中央はノイズです。このタスクは、モデルが正しいラベルを出力するためにミドルノイズを通過するときに開始値を覚えておく必要があるため、情報ラッチと呼ばれます。単一ニューロンRNNを使用して、このような動作を示すモデルを作成しました。図2（b）は結果を示しています。このようなモデルのトレーニングの成功頻度は、シーケンスの長さが増加するにつれて劇的に減少します。LSTMは、1994年にまだ発明されていないため、結果はありませんでした。それで、私は好奇心が強くなり、LSTMが実際にそのようなタスクに対してより良いパフォーマンスを発揮するかどうかを見たいと思います。同様に、バニラセルとLSTMセルの両方に単一のニューロンRNNを構築して、情報ラッチをモデル化しました。驚いたことに、LSTMのパフォーマンスが低下していることがわかりました。理由はわかりません。誰かが私を説明するのを手伝ってもらえますか、または私のコードに何か問題がある場合はどうですか？これが私の結果です：これが私のコードです： import matplotlib.pyplot as plt import numpy as np from keras.models import Model from keras.layers import Input, LSTM, Dense, SimpleRNN N = 10000 num_repeats = 30 num_epochs = 5 # sequence length options lens = [2, 5, 8, 10, 15, 20, 25, 30] + np.arange(30, 210, …

8 neural-networks lstm tensorflow rnn keras

2

ケラスの時代とは？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。これは何を意味するのでしょうか？ Epoch 1/300 7200/7200 [==============================] - 0s - loss: 3.3616 - acc: 0.3707 私はケラスでニューラルネットワークを構築し、これが表示されたものです。ニューラルネットワーク全体に慣れていないので、オンラインで入手できるさまざまな例を読んで学習しています。これは、ケラに組み込まれたニューラルネットワークからのものです。

8 neural-networks tensorflow keras

1

クロスエントロピー計算の対数ベースの違い

ここでTensorFlowチュートリアルを開始しましたが、クロスエントロピーの計算について少し質問があります。2を底とする対数を使用して計算されたクロスエントロピーを見たほとんどの場所ですが、tf.logはeを底としています。どのような条件下で、1つのログベースを使用するほうが望ましいでしょうか

8 tensorflow cross-entropy

1

Tensorflowで実装されているような自動微分の使用例は何ですか？なぜそれが重要なのですか？

ニューラルネットワーク、バックプロパゲーション、チェーンルールを適切に理解していますが、自動微分を理解するのに苦労しています。以下は、逆伝播のコンテキスト外の自動微分に言及しています。自動微分は行列から勾配をどのように計算しますか？勾配を計算するための要件は何ですか？関数を指定する必要がありますか？これの使用例は何ですか（それ以外の場合は逆伝播）？なぜそれが重要であり、代替案は何ですか？何か不足していますか？

7 machine-learning neural-networks deep-learning tensorflow automatic-differentiation

タグ付けされた質問 「tensorflow」

タグ付けされた質問「tensorflow」