時系列分析にリカレントニューラルネットワークを使用する適切な方法

リカレントニューラルネットワークは、「通常の」ニューラルネットワークとは、「メモリ」層を持っているという事実によって異なります。この層のため、リカレントNNは時系列モデリングに役立つと思われます。ただし、それらの使用方法を正しく理解しているかどうかはわかりません。

：のは、（左から右に）私は、次の時系列を持っているとしましょう[0, 1, 2, 3, 4, 5, 6, 7]、私の目標は、予測することでiポイントを使用して番目のポイントをi-1してi-2（それぞれの入力などi>2）。「通常の」非定期的なANNでは、次のようにデータを処理します。

 target| input
      2| 1 0
      3| 2 1
      4| 3 2
      5| 4 3
      6| 5 4
      7| 6 5

次に、2つの入力ノードと1つの出力ノードを持つネットを作成し、上記のデータでトレーニングします。

リカレントネットワークの場合、このプロセスを（もしあれば）変更する必要がありますか？

time-series machine-learning neural-networks

— ボリス・ゴリリク
ソース

RNN（LSTMなど）のデータを構造化する方法を見つけましたか？ありがとう

— mik1904

回答:

あなたが説明するのは、実際には「スライディングタイムウィンドウ」アプローチであり、リカレントネットワークとは異なります。この手法は、任意の回帰アルゴリズムで使用できます。このアプローチには大きな制限があります。入力のイベントは、最大でtタイムステップ離れている他の入力/出力とのみ相関させることができます。ここで、tはウィンドウのサイズです。

たとえば、次数tのマルコフ連鎖を考えることができます。RNNは理論的にはこれに苦しむことはありませんが、実際には学習は困難です。

feedfowardネットワークとは対照的に、RNNを説明するのが最善です。（非常に）単純なフィードフォワードネットワーク考えます。ここで、は出力、は重み行列、は入力です。 $y = Wx$ $y$ $W$ $x$

現在、リカレントネットワークを使用しています。入力のシーケンスができたので、i番目の入力に対してで入力を示します。次に、対応するi番目の出力が介して計算されます。 $x^{i}$ $y^{i} = Wx^i + W_ry^{i-1}$

したがって、前のステップの出力を現在の出力に線形に組み込む別の重み行列あります。 $W_r$

これはもちろんシンプルなアーキテクチャです。最も一般的なのは、自分自身に繰り返し接続される隠れ層があるアーキテクチャです。ましょうタイムステップiにおける中間層を表します。式は次のとおりです。 $h^i$

h^{0} = 0

$h^0 = 0$

h^{i} = σ (W_{1} x^{i} + W_{r} h^{i - 1})

$h^i = \sigma(W_1x^i + W_rh^{i-1})$

y^{i} = W_{2} h^{i}

$y^i = W_2h^i$

どこにシグモイドのような適切な非直線性/伝達関数です。とは、入力層と非表示層、および非表示層と出力層の間の接続ウェイトです。は、繰り返しの重みを表します。 $\sigma$ $W_1$ $W_2$ $W_r$

構造の図は次のとおりです。

回路図

— バイエルジ
ソース

リカレントネットワークとカルマンフィルターの類似性を確認するのは間違っていますか？これは、前の出力が現在の出力に影響するためです。リカレントネットワークの実際の利点は何ですか？

— バース

あなたは両方が状態空間モデルであるという意味で書いています。ただし、多くの違いがあります。KFは、隠れ状態に適切な確率的意味があるという意味で、完全に確率的です。一方、RNNは決定論的であり、出力のみを使用して分布を差別的にモデル化できます。また、KFは通常EMで推定され、RNNは勾配ベースの方法で推定されます。詳細を知りたい場合は、質問を投稿してリンクを送ってください。ただし、コメントは制限されすぎています。

— バイエルジ

いいえ、スライディングタイムウィンドウはネットの出力のふりではなく、入力のふりをします。

— バイエルジ

@bayerj素晴らしい情報ですが、あなたが質問に答えたとは思いません。RNNのスライディングタイムウィンドウにない入力出力ベクトルをどのように構成しますか？OPのデータセットでいくつかのサンプルを提供できますか？

— レビティコン

これはRNNの非常に有益な説明ですが、OPの質問に対する答えを見つけることができません：リカレントネットワークの場合、どのように[トレーニング]を変更する必要がありますか？

— wehnsdaefflae

また、入力データに時系列の多数の変換を使用することを単に検討することもできます。ほんの一例として、入力は次のようになります。

最新の間隔値（7）
次の最新の間隔値（6）
最新と次の最新のデルタ（7-6 = 1）
3番目に新しい間隔値（5）
最新の2番目と3番目のデルタ（6-5 = 1）
最後の3つの間隔の平均（（7 + 6 + 5）/ 3 = 6）

したがって、従来のニューラルネットワークへの入力がこれらの6個の変換されたデータであった場合、通常の逆伝播アルゴリズムがパターンを学習するのは難しい作業ではありません。ただし、生データを取得し、ニューラルネットワークへの上記の6つの入力に変換する変換のコードを作成する必要があります。

— ロスダビッド
ソース

ただし、これには多くのドメイン知識があります。時系列のパターンを自分で認識しないとどうなりますか？次に、特に過去に無限に遡る入力に依存している場合に、どのようにしてモデルを構築しますか？

— バイエルジ

無限は確かに注意が必要です。ただし、このドメインに関係のないデータの変換を入れた場合、学習アルゴリズムはそれを簡単に把握し、それに応じて重みを調整することができるため、変換があれば大きな問題ではありません関連するデータ。そのため、さまざまな変換を利用できるようにすることで、成功の可能性が高まります。

— ロスダビッド

次のタスクを想像してください。ネットへの最初の入力はまたはです。次に、ネットは、任意の数（10、1000、100000）のタイムステップの間隔からノイズを受信します。再びを受け取るとすぐに、以前に見たものに応じてまたはを出力する必要があります。これは、いわゆる「ラッチングベンチマーク」です。これは、シーケンス学習の問題における非常に典型的な設定です。リカレントネットワークの大きな利点は、入力自体の変換全体が学習されることであり、人間の専門家または設計された機能によって与えられないことです。

0

$0$

1

$1$

[- 0.1, 0.1]

$[-0.1, 0.1]$

1

$1$

0

$0$

1

$1$

— バイエルジ

リカレントニューラルネットワークを使用するべきではないとは言いたくありません。まったく逆です。ただし、タスク（質問で述べられているように）が（i-1）および（i-2）ポイントからi番目を予測することである場合、その知識を活用することでより良い結果をより速く得ることができます。RNNは決して良いアイデアではないことを示唆するつもりはありませんが、トレーニングプロセスを高速化するためにドメインの知識を使用しても構いません（そして、トレーニングがローカルミニマムに巻き込まれる可能性を減らすなど）。。

— ロスダビッド

別の可能性は、ヒストリカルコンシステントニューラルネットワーク（HCNN）です。このアーキテクチャは、入力変数と出力変数の間のしばしば任意の区別を排除し、代わりにすべてのオブザーバブルでのトレーニングを介してシステム全体の基礎となる完全なダイナミクスを複製しようとするため、上記のセットアップにより適している可能性があります。

：ツィンマーマン、Grothmann、Tietz、フォン・Jouanne-ディードリッヒ：私はシーメンスのために働いていたとき、私はシュプリンガーフェアラークの本で、このアーキテクチャに関する論文を発表した歴史的一貫性のニューラルネットワークと市場のモデリング、予測およびリスク分析

ここにパラダイムについてのアイデアを与えるために、短い抜粋があります：

この記事では、ヒストリカルコンシステントニューラルネットワーク（HCNN）と呼ばれる新しいタイプのリカレントNNを紹介します。HCNNを使用すると、複数の時間スケールにわたる高度に相互作用する非線形動的システムのモデリングが可能になります。HCNNは入力と出力を区別しませんが、大きな状態空間のダイナミクスに組み込まれたオブザーバブルをモデル化します。

[...]

RNNは、非線形回帰アプローチを使用してオープンな動的システムをモデル化および予測するために使用されます。ただし、多くの現実世界の技術的および経済的アプリケーションは、さまざまな（非線形）ダイナミクスが時間内に相互作用する大規模システムのコンテキストで見る必要があります。モデルに投影すると、これは入力と出力を区別せず、観測可能量について話すことを意味します。大規模システムの部分的な可観測性のために、オブザーバブルのダイナミクスを説明できる隠れ状態が必要です。オブザーバブルと隠し変数は、同じ方法でモデルによって扱われるべきです。オブザーバブルという用語には、入力変数と出力変数が含まれます（つまり、 $Y_τ := (y_τ, u_τ)$ ）。すべてのオブザーバブルのダイナミクスを記述できるモデルを実装できれば、オープンシステムを閉じることができます。

...そして結論から：

大規模なリカレントニューラルネットワークの隠れた変数と観測された変数の共同モデリングは、計画とリスク管理の新しい展望を提供します。HCNNに基づくアンサンブルアプローチは、将来の確率分布の予測に対する代替アプローチを提供します。HCNNは、過去の観測量のダイナミクスの完全な説明を提供します。しかし、世界の部分的な可観測性は、隠れ変数の一意でない再構築をもたらし、したがって、異なる将来のシナリオをもたらします。ダイナミックの純粋な展開は不明であり、すべてのパスが同じ確率を持っているため、アンサンブルの平均が最良の予測と見なされる場合がありますが、分布の帯域幅は市場リスクを表します。今日、HCNN予測を使用してエネルギーと貴金属の価格を予測し、調達決定のタイミングを最適化します。現在進行中の作業は、アンサンブルの特性の分析と、実際のリスク管理および金融市場への応用におけるこれらの概念の実装に関するものです。

論文の一部は公開されています：ここ

— vonjd
ソース

ダウンロードしてテストできる実装がありますか？

— ジュリアンL

@JulienL：残念なことに、これはシーメンス独自の仕事だったからではありません。

— vonjd

残念なことに、それは有望に見えました。

— ジュリアンL

@JulienL：私の共著者であるGeorgに連絡することをお勧めします。彼のメールは論文の最初のページにあります（上記のリンクを参照）。

— -vonjd