LSTM-LMフォーミュレーションとは何ですか?


8

私はこの論文「ニューラルネットワークによるシーケンス学習へのシーケンス」を読んでいますhttp://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

「2.モデル」の下でそれは言う:

LSTMはこの条件付き確率を計算します。最初に、LSTMの最後の非表示状態によって与えられる入力シーケンス(x1、...、xT)の固定次元表現vを取得し、次にy1、...の確率を計算します。。。、yT 'と標準のLSTM-LM公式を使用して、初期の隠蔽状態をx1の表現vに設定します。。。、xT:

LSTMとは何か知っていますが、LSTM-LMとは何ですか?私はそれをグーグルで試しましたが、良いリードを見つけることができません。


しかし、この文はまだ私には不可解です。私がそれを方程式に入れたらif ![ ](i.stack.imgur.com/0Lv8L.png![(https://i.stack.imgur.com/et5Sf.png) with cがエンコーダ。最初の非表示状態は、エンコーダーによって提供される情報を表しますが、次の状態は、ターゲットシーケンスの要素の確率分布を表します。これは、根本的に異なる性質のものです。また、セル状態の初期化は行われておらず、図1はLSTMが提供すると信じています
Charles Englebert

回答:


10

言語モデル(LM)の定義は、一連の単語に対する確率分布です。

LMの簡単な図は、前の単語を指定して次の単語を予測しています。

たとえば、言語モデルといくつかの最初の単語がある場合:

  • 最初の単語を My
  • 私のモデルでは、のname後に出現する可能性が高いと予測していますMy
  • 最初の単語をに設定することで My name、私のモデルはのis後に出現する可能性が高いと予測しますMy name
  • つまり、My-> My name-> My name is->のMy name is Tomようになります。

スマートフォンのキーボードでオートコンプリートを考えることができます。実際、LMはオートコンプリートの中心です。

したがって、LSTM-LMは単にLSTM(およびsoftmax関数)を使用して、前の単語を指定して次の単語を予測します。

ちなみに、言語モデルはLSTM、他のRNN(GRU)、または他の構造化モデルに限定されません。実際、コンテキスト/スライディング/ローリングウィンドウでフィードフォワードネットワークを使用して、最初の単語を指定して次の単語を予測することもできます。


それはLSTM自体の定式化に何らかの変化をもたらしますか
Taevanbat Mongol

それとも、LSTMがリンクされる方法を変更しますか?
Taevanbat Mongol

1
私見、多分それはLM(言語モデリング)のために調整されたLSTMを意味します。私は同じ論文を読んでいて、それが私の理解です
Ali

@TaevanbatMongolいいえ、LSTMの配合は変わりません。LSTM出力から単語の確率を生成するには、softmax関数(または何か)だけが必要です
rilut

単語の確率とは、タイムステップの出力の確率/スコアを合計すると、1に等しいことを意味します
リルト

1

この文脈では、出力表現を使用して、言語モデルのトークン(この場合は文字)に対応する追加のsoftmaxレイヤーを学習することを意味すると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.