タグ付けされた質問 「lstm」

LSTMはLong Short-Term Memoryの略です。ほとんどの場合、この用語を使用するときは、リカレントニューラルネットワークまたはより大きなネットワークのブロック(一部)を指します。

1
LSTMを使用した時系列予測:時系列を静止させることの重要性
定常性と差分に関するこのリンクでは、ARIMAのようなモデルは平均、分散、自己相関などの統計的特性が時間とともに一定であるため、予測には定常化された時系列が必要であると述べられています。RNNは非線形関係を学習する能力が優れているため(ここでの説明:時系列予測のためのリカレントニューラルネットワークの約束)、データが大きい場合は従来の時系列モデルよりも優れたパフォーマンスを発揮するため、定常化の方法を理解することが不可欠ですデータは結果に影響します。答えを知る必要がある質問は次のとおりです。 従来の時系列予測モデルの場合、時系列データの定常性により、予測が容易になり、その理由と方法がわかります。 LSTMを使用して時系列予測モデルを構築する際、時系列データを固定することは重要ですか?もしそうなら、なぜですか?

2
LSTMに異なる入力配列サイズを供給する方法は?
LSTMネットワークを作成し、さまざまな入力配列サイズでフィードしたい場合、どうすれば可能ですか? たとえば、音声メッセージやテキストメッセージを別の言語で取得して翻訳したいと考えています。したがって、最初の入力は「こんにちは」かもしれませんが、2番目の入力は「元気ですか」です。LSTMさまざまな入力配列サイズを処理できるをどのように設計できますか? のKeras実装を使用していますLSTM。
18 keras  lstm 

2
スライディングウィンドウは、LSTMでオーバーフィッティングにつながりますか?
スライディングウィンドウアプローチでLSTMをトレーニングする場合、LSTMをオーバーフィットしますか?なぜ人々はそれをLSTMに使用しないように見えるのですか? 簡単な例として、文字のシーケンスを予測する必要があると仮定します。 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 次のミニバッチを使用してLSTMをトレーニングし続けると、悪い(またはより良い)でしょうか。 A B C D E F G H I J K L M N, backprop, erase the cell B C D …


3
Kerasからのmodel.predict関数の出力はどういう意味ですか?
Quora公式データセットで重複する質問を予測するLSTMモデルを作成しました。テストラベルは0または1です。1は質問のペアが重複していることを示します。使用してモデルを構築した後model.fit、私が使用してモデルをテストしmodel.predict、テストデータに。出力は、以下のような値の配列です。 [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] 配列の最初の10個の値のみを表示しています。これらの値の意味と、各質問ペアの予測ラベルは何ですか?

2
Kerasで「1対多」および「多対多」のシーケンス予測を実装する方法は?
1対多(たとえば、単一の画像の分類)と多対多(たとえば、画像シーケンスの分類)のシーケンスのラベル付けについて、Kerasコーディングの違いを解釈するのに苦労しています。2種類のコードが頻繁に表示されます。 タイプ1では、TimeDistributedは次のように適用されません。 model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation("relu")) model.add(MaxPooling2D(pool_size=pool_size)) model.add(Reshape((56*14,))) model.add(Dropout(0.25)) model.add(LSTM(5)) model.add(Dense(50)) model.add(Dense(nb_classes)) model.add(Activation("softmax")) タイプ2は、TimeDistributedが次のように適用される場所です。 model = Sequential() model.add(InputLayer(input_shape=(5, 224, 224, 3))) model.add(TimeDistributed(Convolution2D(64, (3, 3)))) model.add(TimeDistributed(MaxPooling2D((2,2), strides=(2,2)))) model.add(LSTM(10)) model.add(Dense(3)) 私の質問は: タイプ1は1対多の種類であり、タイプ2は多対多の種類であるという私の仮定は正しいですか?それともTimeDistributed、この側面に関連性はありませんか? 1対多または多対多のいずれの場合も、最後の密な層は1ノードの「長い」(順番に1つの値のみを放出する)と想定され 、前の反復層は 1 対多の数を決定する責任があります。放出する値?または、最後の高密度層はN個のノードで構成されているはずN=max sequence lengthです。もしそうなら、 N個の並列「バニラ」推定器を 使用して複数の出力を持つ同様の入力を生成できる場合、ここでRNN を使用するポイントは何ですか? RNNのタイムステップ数を定義する方法は?それはどういうわけか 出力シーケンスの長さと相関していますか、それとも単に 調整するハイパーパラメータですか? …
13 keras  rnn  lstm  sequence 

4
LSTM時系列予測の予測間隔
LSTM(または他のリカレント)ニューラルネットワークからの時系列予測の周りの予測間隔(確率分布)を計算する方法はありますか? たとえば、最後の10個の観測されたサンプル(t-9からt)に基づいて、未来(t + 1からt + 10)までの10個のサンプルを予測しているとすると、t + 1での予測はより大きくなると予想します。 t + 10での予測よりも正確です。通常、予測の周りにエラーバーを描画して、間隔を示します。ARIMAモデル(正規分布エラーを想定)を使用すると、各予測値の周囲の予測間隔(95%など)を計算できます。LSTMモデルから同じもの(または予測間隔に関連するもの)を計算できますか? 私はより多くの例以下、Keras / PythonでLSTMsで作業されていmachinelearningmastery.com私のサンプルコードは、(下記)に基づいているから、。私は問題を離散的なビンへの分類として再構成することを検討しています。それはクラスごとの信頼を生み出しますが、それは不十分な解決策のようです。 同様のトピックがいくつかありますが(以下など)、LSTM(または実際に他の)ニューラルネットワークからの予測間隔の問題に直接対処するものはないようです。 /stats/25055/how-to-calculate-the-confidence-interval-for-time-series-prediction ARIMAとLSTMを使用した時系列予測 from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from math import sin from matplotlib import pyplot import numpy as np # Build an LSTM network and train def fit_lstm(X, …

1
多次元および多変量時系列予測(RNN / LSTM)Keras
Keras(またはTensorFlow)を使用して多次元および多変量の時系列予測を作成するためにデータを表現および形成する方法を理解しようとしてきましたが、正しい形状(ほとんどの例はわずかに少ない 私のデータセット: いくつかの都市 温度、車の交通量、湿度などの情報があります たとえば、過去2年間(毎日1レコード) 私がやりたいこと: 温度、車の交通量、湿度の遅れの可能性のあるバージョンを使用して、来年に期待できる気温を各都市で予測したい(もちろん、さらにいくつかの機能がありますが、これは単に思考の例)。 混乱していること: 2つの都市がある場合、365日間に3つの機能を記録しました。モデルがこれら2つの都市の365日間の予測を出力できるように、入力をどのように整形する必要があります(つまり、365日間の2つの時系列温度)。 直感的には、テンソルの形状は(?, 365, 3)365日間と3つの機能になります。しかし、私は何を第一次元に固執するのか定かではありません。そして最も重要なことは、それが多くの都市のためでなければならないとしたら驚かれるでしょう。しかし、同時に、寸法を適切に理解する必要があることをモデルに指定する方法がわかりません。 任意のポインターが役立ちます。私は他のニューラルネットワークでこれを行ったので、Kerasなどでネットワークをどのように構築するか、より具体的には所望の入力のシーケンスをエンコードするのに最適な方法で、残りの問題にかなり精通しています。 ああ、また、私は各都市を独立して訓練し予測することができたと思いますが、誰もがおそらくどの都市にも特有ではないが、それらのいくつかを検討した場合にのみ見ることができる学習すべきことがあることに同意するでしょうそのため、モデルにエンコードすることが重要だと思う理由です。
12 python  keras  rnn  lstm 

1
それでは、LSTMの欠点は何ですか?
私はKerasパッケージの知識を拡大しており、利用可能なモデルのいくつかでツールを開発しています。NLPバイナリ分類問題があり、それを解決しようとしており、さまざまなモデルを適用しています。 いくつかの結果を処理し、LSTMの詳細を読んだ後、このアプローチは(複数のデータセットにわたって)私が試した他のどの方法よりもはるかに優れているようです。私は、「なぜ/いつLSTMを使用しないのか」と考え続けています。LSTMに固有の追加のゲートを使用することは、勾配が消えてしまうモデルがいくつかあった後、私にとって完全に理にかなっています。 それでは、LSTMの欠点は何ですか?どこでうまくいかないのですか?「1つのサイズですべてに適合する」アルゴリズムのようなものはないことを知っているので、LSTMには欠点があるに違いありません。

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
LSTMのどの層にドロップアウトしますか?
LSTMドロップアウト付きのマルチレイヤーを使用して、すべての非表示レイヤーと出力の高密度レイヤーにドロップアウトを配置することをお勧めしますか?ヒントンの論文(Dropoutを提案)で彼はDropoutをDenseレイヤーにのみ配置しましたが、それは隠された内部レイヤーが畳み込みであったためです。 もちろん、特定のモデルをテストすることはできますが、これについてコンセンサスがあるのか​​どうか疑問に思いました。

3
LSTM、BiLSTMとは何ですか?
私はディープラーニングに非常に慣れていないため、特にLSTMとBiLSTMとは何か、いつ使用するか(主なアプリケーション分野)を知りたいと思っています。LSTMとBILSTMがRNNよりも人気があるのはなぜですか? これらのディープラーニングアーキテクチャを教師なしの問題で使用できますか?

1
ジェスチャー認識システムでのRNN(LSTM)の使用
私はASL(アメリカ手話)ジェスチャーを分類するためのジェスチャー認識システムを構築しようとしているので、入力はカメラまたはビデオファイルからの一連のフレームであると想定されており、シーケンスを検出して対応するものにマッピングしますクラス(睡眠、助け、食べる、走るなど) 問題は、私がすでに同様のシステムを構築したことですが、静止画像(モーションは含まれません)の場合、手があまり動かず、CNNの構築が単純なタスクであるアルファベットの翻訳にのみ役立ちました。データセットの構造も私がケラスを使用していて、おそらくそうするつもりだったので管理可能でした(すべてのフォルダーには特定の標識の画像のセットが含まれており、フォルダーの名前はこの標識のクラス名です:A、B、C 、..) ここでの私の質問、データセットを整理してケラのRNNに入力できるようにするにはどうすればよいですか?モデルと必要なパラメーターを効果的にトレーニングするためにどの特定の関数を使用すればよいですか?TimeDistributedクラスの使用を提案した人もいますが私の好みに合わせてそれを使用する方法について明確なアイデアを持ち、ネットワーク内のすべてのレイヤーの入力形状を考慮に入れます。 また、私のデータセットが画像で構成されることを考えると、たぶん畳み込み層が必要になるでしょう。どのようにしてconv層をLSTM層に組み合わせることが実現可能でしょうか(つまり、コードの観点から)。 たとえば、私は私のデータセットがこのようなものであると想像します 「Run」という名前のフォルダーには3つのフォルダー1、2、3が含まれ、各フォルダーはシーケンスのフレームに対応しています だからRUN_1は、最初のフレームの画像のいくつかのセットが含まれます、RUN_2は、 2フレーム目のためにRun_3第三のために、私のモデルの目的は、単語を出力する。このシーケンスで訓練されるファイル名を指定して実行。

1
Keras LSTMと1D時系列
私はKerasの使用方法を学んでおり、CholletのDeep Learning for Pythonの例を使用して、ラベル付けされたデータセットで妥当な成功を収めました。データセットは、3つの潜在的なクラスを含む長さ3125の〜1000時系列です。 予測率が約70%になる基本的な高密度レイヤーを超えて、LSTMレイヤーとRNNレイヤーについて説明します。 すべての例では、各時系列に複数の機能を持つデータセットを使用しているようであり、結果としてデータを実装する方法を見つけるのに苦労しています。 たとえば、1000x3125の時系列がある場合、それをSimpleRNNやLSTMレイヤーなどにフィードするにはどうすればよいですか?これらのレイヤーの機能に関する基本的な知識が不足していますか? 現在のコード: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM, Dropout, SimpleRNN, Embedding, Reshape from keras.utils import to_categorical from keras import regularizers from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt …

3
LSTMセル、ユニット、入力に関する質問
LSTMネットワークがどのように機能するかを学習しようとしています。基本を理解しても、内部構造の詳細はわかりません。 このブログリンクで、私はこのLSTMアーキテクチャのスキームを見つけました 明らかに、すべての円はLSTMこのような個々のユニットに対応している必要があります これは正しいです? セル内の各ユニットは他のユニットから独立していますか?または、彼らは情報を共有しますか? 次の構成があるとします。サンプル数= 1000時間ステップ数= 10特徴数= 5 この場合、セルの各ユニットは、サイズ5のベクトルを入力として受け取りますか? しかし、1つのユニットの出力のサイズはどうなるでしょうか。1? ありがとう

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.