フィードバックRNNとLSTM / GRUの違い


19

時系列データに適用されるさまざまなリカレントニューラルネットワーク(RNN)アーキテクチャを理解しようとしていますが、RNNを説明するときによく使用されるさまざまな名前と少し混同されています。Long Short Term Memory(LSTM)とGated Recurrent Unit(GRU)の構造は、基本的にフィードバックループを備えたRNNですか?


2
頭字語を綴ってください。
GUNG -復活モニカ

回答:


33

すべてのRNNには、再帰層にフィードバックループがあります。これにより、長期にわたって情報を「メモリ」に保持できます。ただし、長期的な時間依存性の学習が必要な問題を解決するために標準RNNをトレーニングすることは困難な場合があります。これは、損失関数の勾配が時間とともに指数関数的に減衰するためです(消失勾配問題と呼ばれます)。LSTMネットワークは、標準ユニットに加えて特別なユニットを使用するRNNの一種です。LSTMユニットには、メモリ内の情報を長期間維持できる「メモリセル」が含まれています。ゲートのセットは、情報がいつメモリに入力されるか、いつ出力されるか、いつ忘れられるかを制御するために使用されます。このアーキテクチャにより、長期的な依存関係を学習できます。GRUはLSTMと似ていますが、単純化された構造を使用します。

このホワイトペーパーでは、概要を説明します。

チョンら。(2014)。シーケンスモデリングに関するゲーテッドリカレントニューラルネットワークの経験的評価


5

標準RNN(リカレントニューラルネットワーク)は、勾配の問題が消失および爆発するという問題を抱えています。LSTM(Long Short Term Memory)は、入力および忘却ゲートなどの新しいゲートを導入することでこれらの問題に対処します。これにより、勾配フローをより適切に制御でき、「長期依存性」の保存が向上します。


2

LSTMは、しばしば派手なRNNと呼ばれます。バニラRNNにはセル状態がありません。これらには非表示状態のみがあり、これらの非表示状態はRNNのメモリとして機能します。

一方、LSTMにはセル状態と非表示状態の両方があります。セルの状態には、「ゲート」によって規制されているセルの情報を削除または追加する機能があります。そして、この「セル」のために、理論的には、LSTMは長期的な依存関係を処理できるはずです(実際には、そうすることは困難です)。


-1

TL; DR

RNNからLSTM(Long Short-Term Memory)に移行するとき、訓練された重みに従って入力のフローとミキシングを制御する、より多くの制御ノブを導入していると言えます。したがって、出力の制御に柔軟性をもたらします。そのため、LSTMは最も優れた制御機能を提供するため、より良い結果が得られます。しかし、より複雑で運用コストもかかります。

参照


[ ]:

LSTMはGRUの拡張バージョンです。


この画像は、それらの違いを示しています。

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.