LSTMセルはいくつ使用すればよいですか?


12

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。

私が定義する分類問題があると仮定してください:

t - number of time steps
n - length of input vector in each time step
m - length of output vector (number of classes)
i - number of training examples

たとえば、トレーニングの例の数は次の数よりも多い必要がありますか?

4*((n+1)*m + m*m)*c

cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
:私はうまくシーケンシャル深い学習モデルを比較するの話題だけでなく、ハイパーチューニングに対処し、この論文をチェックアウトしたいarxiv.org/pdf/1503.04069.pdf LSTMブロックの数を増やすと、隠されたあたりのことを、彼らは明白なことを示唆要約すると、レイヤーはパフォーマンスを向上させますが、リターンが減少し、トレーニング時間が増加します。
CubeBot88

回答:


4

トレーニング例の最小数はあなたがそこに持っているものです:

4(nm+n2)

詳細については、この記事を参照してください。視覚的なヘルプが必要な場合は、このリンクを参照してください 。LSTMモデルのパラメーターの数

スタックの各層のユニットの数はさまざまです。たとえば、Tensorflowのtranslate.pyでは、1024、512、または実質的に任意の数に構成できます。最適な範囲は、相互検証によって見つけることができます。しかし、私はスタックの各層に1000と500の両方のユニットを見ました。個人的には、より少ない数でもテストしました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.