タグ付けされた質問 「rnn」

再帰型ニューラルネットワーク(RNN)は、ユニット間の接続が有向サイクルを形成する一種の人工ニューラルネットワークです。

5
ARIMA vs LSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。私は一度に1つの時系列を見ており、たとえば入力データの15%に基づいて、その将来の値を予測したいと思います。これまでのところ、2つのモデルに出くわしました。 LSTM(長期短期記憶;リカレントニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。今、私は2つを比較する方法についてより良い感覚を得ようとしています。私がこれまでに見つけたもの: LSTMは、大量のデータを処理し、十分なトレーニングデータを利用できる場合に優れていますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは、(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTM用に調整する必要があるハイパーパラメーターがいくつかあります。 編集:ここで素晴らしい記事を読んでいる間に気づいた2つの大きな違いの1つは、ARIMAは定常時系列(季節性、傾向などがない)でのみうまく機能することであり、 ARIMAを使用したい 上記の特性以外に、最良のモデルの選択に役立つ他のポイントや事実を見つけることができませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれたら本当に感謝しています(これまでのところ運がなかった、あちこちの一般的な意見だけで、実験に基づいたものは何もありませんでした) もともとストリーミングデータを扱っていることに言及する必要がありますが、今のところ、最大サイズが20kデータポイントの50データセットを含むNABデータセットを使用しています。

2
Kerasで異なる長さの例を使用してRNNをトレーニングする
私はRNNについて学び始めようとしていますが、Kerasを使用しています。私はバニラRNNおよびLSTMレイヤーの基本的な前提を理解していますが、トレーニングの特定の技術的ポイントを理解するのに苦労しています。 でkerasドキュメントは、RNN層への入力は、形を持たなければならないと言います(batch_size, timesteps, input_dim)。これは、すべてのトレーニング例のシーケンス長が固定されていることを示していますtimesteps。 しかし、これは特に典型的なものではありませんか?さまざまな長さの文に対してRNNを動作させたい場合があります。いくつかのコーパスでトレーニングするとき、さまざまな長さの一連の文をフィードします。 私がすべきことは、トレーニングセット内の任意のシーケンスの最大長を見つけてゼロパッドすることです。しかし、それは、それより長い入力長でテスト時に予測を行うことができないことを意味しますか? これはKerasの特定の実装に関する質問ですが、この種の一般的な問題に直面したときに人々が通常何をするかについても尋ねています。
61 python  keras  rnn  training 

3
LSTMモデルのパラメーターの数
シングルスタックLSTMにはいくつのパラメーターがありますか?パラメータの数は、必要なトレーニング例の数に下限を課し、トレーニング時間にも影響します。したがって、パラメーターの数を知ることは、LSTMを使用したモデルのトレーニングに役立ちます。

1
論文:レイヤーの正規化、繰り返しバッチ正規化(2016)、およびバッチ正規化RNN(2015)の違いは何ですか?
そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。 しかし、Recurrent Batch Normalization(Cooijmans、2016)とBatch Normalized Recurrent Neural Networks(Laurent、2015)というタイトルの論文があることを覚えています。これら3つの違いは何ですか? 私が理解できないこの関連作業セクションがあります: 以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

4
「LSTMセルのユニット数」の意味は何ですか?
Tensorflowコードから:Tensorflow。RnnCell。 num_units: int, The number of units in the LSTM cell. これが何を意味するのか理解できません。LSTMセルの単位は何ですか。ゲートを入力、出力、および忘れますか?これは、「Deep LSTMの再帰投影レイヤーのユニット数」を意味しますか。では、なぜこれが「LSTMセルのユニット数」と呼ばれるのですか?LSTMセルとは何ですか?VS VS LSTMブロックとの違いは何ですか?セルでない場合の最小LSTMユニットとは何ですか?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
単語ベースと文字ベースのテキスト生成RNNの違いは何ですか?
リカレントニューラルネットワークIとテキスト生成について読んでいる間、いくつかの例は、テキストを生成するために実施されたことに気づいた単語単位で、他の文字によって文字実際に理由を述べずに。 だから、テキストを予測するRNNモデルの違いは何ですごとの単語の基礎とテキスト予測するものにつき-CHAR根拠は?単語ベースのRNNには、より大きなコーパスサイズが必要ですか?文字ベースのRNNはより一般化されていますか?たぶん、唯一の違いは入力表現(ワンホットエンコーディング、単語埋め込み)でしょうか?テキスト生成に選択するものはどれですか?

1
複数の時系列を使用したRNN
各シリーズのタイプに基づいてトレーニングするために、時系列を入力として使用してニューラルネットワークを作成しようとしています。RNNを使用すると、入力をバッチに分割し、時系列のすべてのポイントを個々のニューロンに使用し、最終的にネットワークをトレーニングできることを読みました。 私がやろうとしていることは、入力として複数の時系列を使用することです。たとえば、2つのセンサーから入力を受け取る場合があります。(つまり2つの時系列)、最終結果を得るために両方を使用したいと思います。 また、時系列の将来の値を予測しようとはしていません。それらすべてに基づいて分類を取得しようとしています。 この問題にどのように取り組むべきですか? RNNへの入力として複数の時系列を使用する方法はありますか? 時系列を1つに集約しようとする必要がありますか? または、2つの異なるニューラルネットワークを使用する必要がありますか?そして、この最後のアプローチが正しければ、時系列の数が増えても、それはコンピューターに負担をかけすぎないでしょうか?
14 time-series  rnn 

1
リカレントニューラルネットワーク(RNN)のレイヤーを忘れる-
私は忘却層のRNNの各変数の次元を把握しようとしていますが、正しい軌道に乗っているかどうかはわかりません。次の図と方程式は、Colahのブログ投稿「Understanding LSTM Networks」からのものです。 どこ: xtxtx_tはサイズm∗1m∗1m*1ベクトルの入力です ht−1ht−1h_{t-1}はサイズn∗1n∗1n*1ベクトルの隠れ状態です 例えば、もしは(連結である X T = [ 1 、2 、3 ] 、時間T - 1 = [ 4 、5 、6 ]、次に [ X 、T、HのT - 1 ] = [ 1 、2 、3 、4 、5 、6 ])[xt,ht−1][xt,ht−1][x_t, h_{t-1}]xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, …

2
Kerasで「1対多」および「多対多」のシーケンス予測を実装する方法は?
1対多(たとえば、単一の画像の分類)と多対多(たとえば、画像シーケンスの分類)のシーケンスのラベル付けについて、Kerasコーディングの違いを解釈するのに苦労しています。2種類のコードが頻繁に表示されます。 タイプ1では、TimeDistributedは次のように適用されません。 model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation("relu")) model.add(MaxPooling2D(pool_size=pool_size)) model.add(Reshape((56*14,))) model.add(Dropout(0.25)) model.add(LSTM(5)) model.add(Dense(50)) model.add(Dense(nb_classes)) model.add(Activation("softmax")) タイプ2は、TimeDistributedが次のように適用される場所です。 model = Sequential() model.add(InputLayer(input_shape=(5, 224, 224, 3))) model.add(TimeDistributed(Convolution2D(64, (3, 3)))) model.add(TimeDistributed(MaxPooling2D((2,2), strides=(2,2)))) model.add(LSTM(10)) model.add(Dense(3)) 私の質問は: タイプ1は1対多の種類であり、タイプ2は多対多の種類であるという私の仮定は正しいですか?それともTimeDistributed、この側面に関連性はありませんか? 1対多または多対多のいずれの場合も、最後の密な層は1ノードの「長い」(順番に1つの値のみを放出する)と想定され 、前の反復層は 1 対多の数を決定する責任があります。放出する値?または、最後の高密度層はN個のノードで構成されているはずN=max sequence lengthです。もしそうなら、 N個の並列「バニラ」推定器を 使用して複数の出力を持つ同様の入力を生成できる場合、ここでRNN を使用するポイントは何ですか? RNNのタイムステップ数を定義する方法は?それはどういうわけか 出力シーケンスの長さと相関していますか、それとも単に 調整するハイパーパラメータですか? …
13 keras  rnn  lstm  sequence 

1
多次元および多変量時系列予測(RNN / LSTM)Keras
Keras(またはTensorFlow)を使用して多次元および多変量の時系列予測を作成するためにデータを表現および形成する方法を理解しようとしてきましたが、正しい形状(ほとんどの例はわずかに少ない 私のデータセット: いくつかの都市 温度、車の交通量、湿度などの情報があります たとえば、過去2年間(毎日1レコード) 私がやりたいこと: 温度、車の交通量、湿度の遅れの可能性のあるバージョンを使用して、来年に期待できる気温を各都市で予測したい(もちろん、さらにいくつかの機能がありますが、これは単に思考の例)。 混乱していること: 2つの都市がある場合、365日間に3つの機能を記録しました。モデルがこれら2つの都市の365日間の予測を出力できるように、入力をどのように整形する必要があります(つまり、365日間の2つの時系列温度)。 直感的には、テンソルの形状は(?, 365, 3)365日間と3つの機能になります。しかし、私は何を第一次元に固執するのか定かではありません。そして最も重要なことは、それが多くの都市のためでなければならないとしたら驚かれるでしょう。しかし、同時に、寸法を適切に理解する必要があることをモデルに指定する方法がわかりません。 任意のポインターが役立ちます。私は他のニューラルネットワークでこれを行ったので、Kerasなどでネットワークをどのように構築するか、より具体的には所望の入力のシーケンスをエンコードするのに最適な方法で、残りの問題にかなり精通しています。 ああ、また、私は各都市を独立して訓練し予測することができたと思いますが、誰もがおそらくどの都市にも特有ではないが、それらのいくつかを検討した場合にのみ見ることができる学習すべきことがあることに同意するでしょうそのため、モデルにエンコードすることが重要だと思う理由です。
12 python  keras  rnn  lstm 

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
LSTMのどの層にドロップアウトしますか?
LSTMドロップアウト付きのマルチレイヤーを使用して、すべての非表示レイヤーと出力の高密度レイヤーにドロップアウトを配置することをお勧めしますか?ヒントンの論文(Dropoutを提案)で彼はDropoutをDenseレイヤーにのみ配置しましたが、それは隠された内部レイヤーが畳み込みであったためです。 もちろん、特定のモデルをテストすることはできますが、これについてコンセンサスがあるのか​​どうか疑問に思いました。

3
LSTM、BiLSTMとは何ですか?
私はディープラーニングに非常に慣れていないため、特にLSTMとBiLSTMとは何か、いつ使用するか(主なアプリケーション分野)を知りたいと思っています。LSTMとBILSTMがRNNよりも人気があるのはなぜですか? これらのディープラーニングアーキテクチャを教師なしの問題で使用できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.