タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)経時的に観測されたデータです。

5
ARIMA vs LSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。私は一度に1つの時系列を見ており、たとえば入力データの15%に基づいて、その将来の値を予測したいと思います。これまでのところ、2つのモデルに出くわしました。 LSTM(長期短期記憶;リカレントニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。今、私は2つを比較する方法についてより良い感覚を得ようとしています。私がこれまでに見つけたもの: LSTMは、大量のデータを処理し、十分なトレーニングデータを利用できる場合に優れていますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは、(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTM用に調整する必要があるハイパーパラメーターがいくつかあります。 編集:ここで素晴らしい記事を読んでいる間に気づいた2つの大きな違いの1つは、ARIMAは定常時系列(季節性、傾向などがない)でのみうまく機能することであり、 ARIMAを使用したい 上記の特性以外に、最良のモデルの選択に役立つ他のポイントや事実を見つけることができませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれたら本当に感謝しています(これまでのところ運がなかった、あちこちの一般的な意見だけで、実験に基づいたものは何もありませんでした) もともとストリーミングデータを扱っていることに言及する必要がありますが、今のところ、最大サイズが20kデータポイントの50データセットを含むNABデータセットを使用しています。


4
時系列モデルLSTMへの機能の追加
LSTMと時系列でのLSTMの使用について少し読んでおり、興味深いが同時に難しかった。私が理解するのに苦労したことの1つは、既に時系列機能のリストであるものに追加機能を追加するアプローチです。データセットが次のようになっていると仮定します。 t-3、t-2、t-1、出力 次に、出力に影響する機能があることを知っていると言いましょうが、必ずしも時系列機能であるとは限りません。外の天気を言ってみましょう。これはあなたがただ追加できるもので、LSTMは時系列の側面とそうでないものを区別することができますか?

2
季節性やその他のパタ​​ーンが変化する時系列に対処する方法は?
バックグラウンド 私は、エネルギーメーターの測定値の時系列データセットに取り組んでいます。シリーズの長さはメートルによって異なります-私が数年持っているものもあれば、数ヶ月しかいないものもあります。 私が取り組んできたものの1つは、これらの時系列のクラスタリングです。私の仕事は今のところ学術的であり、データの他の分析も行っていますが、クラスタリングを実行するという特定の目標があります。 さまざまな機能(週末と平日で使用される割合、異なる時間ブロックで使用される割合など)を計算する初期作業を行いました。その後、動的タイムワーピング(DTW)を使用して異なるシリーズ間の距離を取得し、差分値に基づいてクラスタリングを検討することに進み、これに関連するいくつかの論文を見つけました。 質問 特定のシリーズの季節性の変化により、クラスタリングが不正確になりますか?もしそうなら、どのように対処しますか? 私の懸念は、時系列のパターンが変更された場合、DTWによって取得された距離が誤解を招く可能性があることです。これにより、誤ったクラスタリングが発生する可能性があります。 上記が不明な場合は、次の例を検討してください。 例1 メーターの真夜中から午前8時までの測定値が低く、次の1時間は測定値が急激に増加し、午前9時から午後5時まで高値を維持し、次の1時間にわたって急激に減少し、午後6時から深夜まで低値を維持します。メーターは、このパターンを毎日数か月間一貫して継続しますが、読み取り値が1日を通して一貫したレベルにとどまるパターンに変わります。 例2 メーターは、ほぼ毎月消費されるエネルギー量を示します。数年後、夏季のエネルギー使用量が通常の量に戻る前のパターンに変わります。 可能な方向 私は、時系列全体を比較し続けることができるかどうか疑問に思っていましたが、パターンを大幅に変更する場合は、それらを分割し、別のシリーズと見なします。ただし、これを行うには、そのような変更を検出できる必要があります。また、これが適切な方法なのか、データを操作するのかわからないだけです。 また、データを分割し、それを多くの別個の時系列として考慮することも検討しました。たとえば、毎日/メーターの組み合わせを個別のシリーズと考えることができます。ただし、毎週/毎月/毎年のパターンを検討する場合は、同様に行う必要があります。私が考えて、これは動作しますが、それは潜在的にかなり厄介だと私は欠けていることにもっと良い方法があるのなら、私はこの道を行くことを憎みます。 さらなる注記 これらは、コメントに出てきたもの、またはコメントが原因で私が考えたもので、関連性があるかもしれません。関連情報を取得するためにすべてを読み通す必要がないように、ここに配置しています。 私はPythonで作業していますが、Rの方が適している場所にはrpyがあります。私は必ずしもPythonの答えを探しているわけではありません-誰かが実際に何をすべきかについての答えを持っているなら、実装の詳細を自分で理解して幸せです。 私はたくさんの「ラフドラフト」コードを実行しています。DTWをいくつか実行したり、いくつかの異なるタイプのクラスタリングを実行したりしています。本当に探しているのは、距離を見つける前にデータを処理する方法、クラスタリングを実行する方法などに関連しています。 これらの論文は時系列とDTWについて特に有益であり、トピック領域の背景が必要な場合に役立つことがあります:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm

1
LSTMを使用した時系列予測:時系列を静止させることの重要性
定常性と差分に関するこのリンクでは、ARIMAのようなモデルは平均、分散、自己相関などの統計的特性が時間とともに一定であるため、予測には定常化された時系列が必要であると述べられています。RNNは非線形関係を学習する能力が優れているため(ここでの説明:時系列予測のためのリカレントニューラルネットワークの約束)、データが大きい場合は従来の時系列モデルよりも優れたパフォーマンスを発揮するため、定常化の方法を理解することが不可欠ですデータは結果に影響します。答えを知る必要がある質問は次のとおりです。 従来の時系列予測モデルの場合、時系列データの定常性により、予測が容易になり、その理由と方法がわかります。 LSTMを使用して時系列予測モデルを構築する際、時系列データを固定することは重要ですか?もしそうなら、なぜですか?

7
以前の時系列データに基づいてトラフィックを予測するにはどうすればよいですか?
小売店があり、毎分何人の人が私の店に入るかを測定し、そのデータにタイムスタンプを付ける方法がある場合、どうすれば将来の足のトラフィックを予測できますか? 機械学習アルゴリズムを検討しましたが、どのアルゴリズムを使用すべきかわかりません。私のテストデータでは、KNNのように(賢明なパラメーターと距離関数であると思う)他の試みと比較して、年ごとの傾向がより正確です。 これは、時系列データを扱う金融モデリングに似ているようです。何か案は?

3
時系列での異常検出に適したパッケージを探しています
時系列の異常検出に使用できる包括的なオープンソースパッケージ(できればpythonまたはR)はありますか? scikit-learnには1つのクラスのSVMパッケージがありますが、時系列データ用ではありません。たとえば、異常検出にベイジアンネットワークを使用する、より洗練されたパッケージを探しています。

5
隠れマルコフモデルを実装するPythonライブラリ
隠れマルコフモデルの実装に使用できる安定した Pythonライブラリは何ですか?私は以前にこのモデルを実際に使用したことがないため、合理的に十分に文書化する必要があります。 あるいは、HMMを使用してデータセットで時系列分析を実行するためのより直接的なアプローチはありますか?

1
複数の時系列を使用したRNN
各シリーズのタイプに基づいてトレーニングするために、時系列を入力として使用してニューラルネットワークを作成しようとしています。RNNを使用すると、入力をバッチに分割し、時系列のすべてのポイントを個々のニューロンに使用し、最終的にネットワークをトレーニングできることを読みました。 私がやろうとしていることは、入力として複数の時系列を使用することです。たとえば、2つのセンサーから入力を受け取る場合があります。(つまり2つの時系列)、最終結果を得るために両方を使用したいと思います。 また、時系列の将来の値を予測しようとはしていません。それらすべてに基づいて分類を取得しようとしています。 この問題にどのように取り組むべきですか? RNNへの入力として複数の時系列を使用する方法はありますか? 時系列を1つに集約しようとする必要がありますか? または、2つの異なるニューラルネットワークを使用する必要がありますか?そして、この最後のアプローチが正しければ、時系列の数が増えても、それはコンピューターに負担をかけすぎないでしょうか?
14 time-series  rnn 

1
intのpandas列をタイムスタンプデータ型に変換します
特に、1970-1-1以降に渡されたミリ秒数の列を含むデータフレームがあります。このintの列をタイムスタンプデータに変換する必要があるため、タイムスタンプ列シリーズを1970-1-1の日時値のみで構成されるシリーズに追加することにより、最終的に日時データの列に変換できます。 一連の文字列を日時データ(pandas.to_datetime)に変換する方法は知っていますが、intの列全体を日時データまたはタイムスタンプデータに変換する解決策を見つけることができません。

1
ファジートークンのシーケンス内の文法を認識する
主にアイテムのリストを含むテキストドキュメントがあります。 各アイテムは、異なるタイプの複数のトークンのグループです:FirstName、LastName、BirthDate、PhoneNumber、City、Occupationなど。トークンは単語のグループです。 アイテムは複数の行に配置できます。 ドキュメントのアイテムはほぼ同じトークン構文を持っていますが、必ずしも完全に同じである必要はありません。 それらは、アイテム間だけでなくアイテム間でも、より多く/より少ないトークンである場合があります。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目標は、使用されている文法を識別することです。例えば Occupation City 最後に、すべてのアイテムを特定します。完全に一致するとは限りません。 短く読みやすくするために、代わりにいくつかのエイリアスA、B、C、D、...を使用して、これらのトークンタイプを指定しましょう。 例えば A B C D F A B C D …

4
LSTM時系列予測の予測間隔
LSTM(または他のリカレント)ニューラルネットワークからの時系列予測の周りの予測間隔(確率分布)を計算する方法はありますか? たとえば、最後の10個の観測されたサンプル(t-9からt)に基づいて、未来(t + 1からt + 10)までの10個のサンプルを予測しているとすると、t + 1での予測はより大きくなると予想します。 t + 10での予測よりも正確です。通常、予測の周りにエラーバーを描画して、間隔を示します。ARIMAモデル(正規分布エラーを想定)を使用すると、各予測値の周囲の予測間隔(95%など)を計算できます。LSTMモデルから同じもの(または予測間隔に関連するもの)を計算できますか? 私はより多くの例以下、Keras / PythonでLSTMsで作業されていmachinelearningmastery.com私のサンプルコードは、(下記)に基づいているから、。私は問題を離散的なビンへの分類として再構成することを検討しています。それはクラスごとの信頼を生み出しますが、それは不十分な解決策のようです。 同様のトピックがいくつかありますが(以下など)、LSTM(または実際に他の)ニューラルネットワークからの予測間隔の問題に直接対処するものはないようです。 /stats/25055/how-to-calculate-the-confidence-interval-for-time-series-prediction ARIMAとLSTMを使用した時系列予測 from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from math import sin from matplotlib import pyplot import numpy as np # Build an LSTM network and train def fit_lstm(X, …

1
2つの機能と時系列のイベントに基づいて顧客を分類する
私が設計しているアルゴリズムの次のステップに何をすべきかについての助けが必要です。 NDAのせいで、あまり開示することはできませんが、一般的でわかりやすいものにしようと思います。 基本的に、アルゴリズムのいくつかのステップの後、私はこれを持っています: 私が持っている各顧客と、彼らが1か月間に行うイベントについて、最初のステップでイベントをいくつかのカテゴリにクラスター化しました(各顧客は、1からxが1から25までのカテゴリに分けられたイベントを持ち、通常、最初のカテゴリは他のカテゴリよりもイベントの密度が高くなります)。 各カテゴリと顧客について、1時間あたりの月のイベントを集約する時系列を作成しました(これらのイベントがいつ行われるかのパターンを取得します)。また、私は、男が少なくとも1つのイベントを実行する1か月(30日間)の日数と、少なくとも1つのイベントの合計に対する少なくとも1つのイベントの日数に基づいて、いくつかの正規化変数を使用していますイベント(すべてのクラスターを集約)。1つ目は、その月の顧客の活動度の比率を示し、2つ目は、他のカテゴリに対してカテゴリを重み付けします。 ファイナルテーブルは次のようになります |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

2
不等間隔の時系列のモデリング
1年の期間にわたって不規則な間隔でサンプリングされた連続変数があります。1日あたり1回以上の観測がある日もあれば、何日も観測されない日もあります。これにより、時系列のパターンを検出することが特に困難になります。これは、一部の月(たとえば10月)は高度にサンプリングされ、他の月はそうではないためです。 私の質問は、この時系列をモデル化するための最良のアプローチは何でしょうか? ほとんどの時系列分析手法(ARMAなど)には固定周波数が必要だと思います。一定のサンプルを取得したり、非常に詳細なデータのサブセットを選択したりするために、データを集計できます。両方のオプションを使用すると、元のデータセットからいくつかの情報が失われ、異なるパターンが明らかになる可能性があります。 シリーズをサイクルで分解する代わりに、モデルにデータセット全体をフィードして、パターンを取得することを期待できます。たとえば、時間、平日、月をカテゴリー変数に変換し、重回帰を試みて良い結果を出しました(R2 = 0.71) 私はANNなどの機械学習手法でもこれらのパターンを不均一な時系列から選択できると考えていますが、誰かがそれを試したのではないかと思っていました。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.