時系列の予測可能性を判断する方法は？

予測者が直面している重要な問題の1つは、特定の系列を予測できるかどうかです。

Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー（ApEn）を使用して、所定の時系列を予測できる相対的な指標を決定しています。

記事は言う、

「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します（規則性）。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します（不規則性）。したがって、値が大きいほど、不規則性が高くなります。、ランダム性、システムの複雑さ。」

そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。

呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。

シリーズ1：有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。
系列2：太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。
シリーズ3：乱数このシリーズを予測する方法はありません。

したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。

以下は、3つのシリーズすべてのApEnを計算するRスニペットです。

library("pracma")
> series1 <- approx_entropy(AirPassengers)
> series1
[1] 0.5157758
> series2 <- approx_entropy(sunspot.year)
> series2
[1] 0.762243
> series3 <- approx_entropy(rnorm(1:30))
> series3
[1] 0.1529609

これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。

> series3 <- approx_entropy(rnorm(1:100))
> series3
[1] 0.747275

以下は私の質問です：

ApEn（mおよびr）の計算には2つのパラメータがありますか？それらを決定する方法。R上記のコードでデフォルトを使用しました。
ApEnが乱数に対して、sunspot.yearlyなどの明確に定義された系列よりも低いことを誤って示しているので、私は間違って何をしていますか。
シリーズの季節性をなくす/トレンドを取り除き、次にApEnを推定する必要があります。ただし、著者はApEnを直接シリーズに適用しています。
シリーズが予測可能かどうかを判断する他の方法はありますか？

— 予報士
ソース

記事で述べたように、N <200の短い時系列では近似エントロピーを使用しないでください。さらに重要なこととして、この記事では近似エントロピーではなくサンプルエントロピーを使用しています。Pracmaには両方が含まれています。おかげで

説明変数を考慮していますか？たとえば、会社のアカウントの減少を予測している場合、それはマーケティング支出と相関している可能性があり、支出は非常に予測可能です。実際、数か月先に計画されています。これは提案されたアプローチでどのように説明されますか？

— Aksakal、2015年

@Aksakal、説明変数はありません。予測可能性を評価するための客観的な測定が必要な大規模な単変量（説明変数なし）時系列予測を探していました。また、多くの場合、単変量予測は、爆発変数で構築されたモデルよりもはるかに正確です。

— 予測者

時系列の予測

— Tim

私の考えでは、これは提案された複製よりもはるかに狭い質問です。投票はオープンのままにしますが、OPが2つを混同しないように、より具体的なタイトルを検討するよう提案します。「おおよそのエントロピーを使用して時系列の予測可能性を決定する方法は？」と言います。

— Seanイースター

回答:

時系列の近似エントロピー（ApEn）の計算に関係するパラメーターmとrは、それぞれウィンドウ（シーケンス）の長さと許容誤差（フィルター値）です。実際には、の点で、ならびに（データポイントの数）、APENがされ定義された「長さの繰り返しパターンの相対的な有病率の自然対数として長さのものと比較して、」（Balasis、Daglis、Anastasiadis＆Eftaxias 2011 、215ページ）：mrNmm + 1

A p E n (m, r, N) = Φ^{m} (r) - Φ^{m + 1} (r),

$ApEn(m, r, N) = \Phi^m(r) - \Phi^{m+1}(r),$

$\text{where }$

Φ^{m} (r) = Σ_{i} l n C_{i}^{m} (r) / (N - m + 1)

$\Phi^m(r) = {\LARGE{\Sigma}_i} lnC^m_i(r)/(N - m + 1)$

したがって、許容範囲を変更すると、時系列のエントロピーを決定するr（時間的な）粒度を制御できるようになります。それでも、パッケージのエントロピー関数呼び出しで両方のデフォルト値mとrパラメーターをpracma使用すると問題なく機能します。3つの時系列すべての正しいエントロピー値の関係（より明確な系列では低いエントロピー、より多くのランダムデータでは高いエントロピー）を確認するために必要な唯一の修正は、ランダムデータベクトルの長さを増やすことです：

 library(pracma)
 set.seed(10)
 all.series <- list(series1 = AirPassengers,
                    series2 = sunspot.year,
                    series3 = rnorm(500)) # <== size increased
 sapply(all.series, approx_entropy)
  series1   series2   series3 
  0.5157758 0.7622430 1.4741971

結果は期待どおりです。変動の予測可能性が最も決定的なものseries1から最もランダムなものseries 3に減少するにつれて、そのエントロピーは結果的に増加しますApEn(series1) < ApEn(series2) < ApEn(series3)。

その他に関しては対策のforecastability、あなたがチェックしたいかもしれ平均絶対スケール誤差（MASEを） -を参照して、この議論の詳細については。予測可能なコンポーネント分析も、時系列の予測可能性を決定するための興味深い新しいアプローチのようです。そして、予想通り、Rそのためのパッケージもあります-ForeCA。

library(ForeCA)
sapply(all.series,
       Omega, spectrum.control = list(method = "wosa"))
 series1   series2   series3 
 41.239218 25.333105  1.171738

ここではおよびである予測可能性の尺度です。 $\Omega \in [0, 1]$ $\Omega(white noise) = 0\%$ $\Omega(sinusoid) = 100 \%$

参考文献

Balasis、G.、Daglis、IA、Anastasiadis、A.、＆Eftaxias、K.（2011）。エントロピーの概念と再スケーリングされた範囲分析を使用したDst時間sSeriesの動的な複雑さの変化の検出。W. LiuおよびM. Fujimoto（編）、The Dynamic Magnetosphere、IAGA Special Sopron Book、Series 3、211。doi：10.1007 / 978-94-007-0501-2_12。スプリンガー。http://members.noa.gr/anastasi/papers/B29.pdfから取得

Georg M. Goerg（2013）：予測可能な成分分析。JMLR、W＆CP（2）2013：64-72。http://machinelearning.wustl.edu/mlpapers/papers/goerg13

— アレクサンドル・ブレフ
ソース

また、pracma::sample_entropy()関数をテストし、そのシナリオで保持された時系列全体の結果の関係も修正しました。

— Aleksandr Blekh 2015年

@forecaster：どういたしまして。

— Aleksandr Blekh、2015年

実験データを使用して予測可能性の測定値を正当化するこのペーパーnotsoirrational.files.wordpress.com/2015/04/schulz15.pdfも参照してください。また、この記事で言及フォレカ作業に作業の一部を関係

— ゲオルク・M. Goerg

@ GeorgM.Goerg：提案、リンク、編集をありがとう。

— Aleksandr Blekh

@forecaster：どういたしまして。

— Aleksandr Blekh 16

すべての時系列は、トレンド、季節性、ランダムの3つのコンポーネントで構成されています。データが強い傾向を示したり、季節性が高い場合、予測は比較的簡単です。データがほとんどランダムである場合、定義では何も予測できません。

— 隠れマルコフモデル
ソース