私はCSの学部生です(ただし、AIについてはよく知りませんが、AIについてのコースを受講していません。最近までNNについてはまったく何もしていませんでした)。AIで学校のプロジェクトをやろうとしているので、ニューラルネットワークで強化学習を使用した(文脈自由言語およびおそらく文脈依存言語のサブセットの)文法誘導。私は以前に成功したアプローチを最初に研究してそれらを微調整できるかどうかを確認し始めましたが、今私は長期短期記憶による教師あり学習を使用してアプローチを理解しようとしています。私は「忘れる学習:LSTMによる継続的予測」を読んでいます。。私ものぞき穴に関する論文を読んでいますが、それはさらに複雑に思われ、単純なことを最初に試みています。私は、メモリセルとネットワークトポロジがどのように機能するかを正しく理解していると思います。現時点では取得できないのは、トレーニングアルゴリズムです。だから私は尋ねるいくつかの質問があります:
異なる入力はどの程度正確に区別されますか?どうやらネットワークは各入力の後にリセットされず、異なる入力を区切る特別な記号はありません。ネットワークは、入力の終わりと次の始まりがどこであるかについての手掛かりなしに、文字列の連続ストリームを受信するだけですか?
入力と対応するターゲット出力の間のタイムラグはどれくらいですか?確かにある程度のタイムラグが必要であるため、ネットワークは、処理するのに十分な時間がない入力からターゲット出力を取得するようにトレーニングすることはできません。使用されたのがReberの文法ではなく、より多くの情報を格納および取得する必要がある可能性のあるより複雑なものである場合、情報にアクセスするために必要な時間は、入力によって異なり、おそらく予測できないものです。トレーニングを行うためのタイムラグを決定している間。
トレーニングアルゴリズムのより直感的な説明はありますか?すべての複雑な数式の背後で何が行われているのかを理解するのは難しいと思います。後で強化学習アルゴリズムに微調整する必要があるため、理解する必要があります。
また、このペーパーでは、ノイズの多いトレーニングデータについては何も触れられていません。ネットワークが非常にノイズの多いテストデータを処理できることを他の場所で読んだことがあります。LSTMが、トレーニングデータが不要な情報で破損/上書きされる可能性がある状況を処理できるかどうかを知っていますか?