統計とビッグデータ time-series

2

次のグラフを検討してください。赤い線（左軸）は、特定の株式の取引量を示しています。青い線（右軸）は、その株式のtwitterメッセージの量を示しています。例えば、5月9日（05-09）に約1億件の取引と4.000のツイートが行われました。私は、同じ日またはラグのある時系列の間に相関があるかどうかを計算したいと思います-例えば：ツイート量は1日後に取引量と相関します。私はそのような分析を行った多くの記事を読んでいます。例えば、金融時系列とマイクロブログ活動との相関関係です。この記事には次のことが記載されています。しかし、私は統計分析の経験がほとんどなく、私が持っているシリーズでこれを実行する方法がわかりません。私はSPSS（PASWとも呼ばれます）を使用しますが、質問は次のとおりです。上記のイメージの基礎となるデータファイルがある時点からこのような分析を行うための手順は何ですか？そのようなテストはデフォルトの機能（およびそれは何と呼ばれる）であるか、および/または他の方法でそれを実行できますか？どんな助けも大歓迎です:-)

12 time-series correlation lags

4

バイナリ時系列の予測

車が動いていないときは1、車が動いているときは0のバイナリ時系列があります。36時間先までの時間範囲と1時間ごとの予測を行います。私の最初のアプローチは、次の入力を使用してNaive Bayesを使用することでした：t-24（毎日の季節）、t-48（毎週の季節）、時間。ただし、結果はあまり良くありません。この問題に対してどの記事またはソフトウェアをお勧めしますか？

12 r time-series forecasting binary-data

5

非周期的時系列の傾向を分析する方法

次の非定期的な時系列があるとします。明らかに傾向は減少しているので、（p値を使用した）いくつかのテストでそれを証明したいと思います。値間の時間的（シリアル）自己相関が強いため、古典的な線形回帰を使用できません。 library(forecast) my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9, 6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1), start = 1, end = 27,frequency = 1) plot(my.ts, col = "black", type = "p", pch = 20, cex = 1.2, ylim = c(0,13)) # line of moving averages lines(ma(my.ts,3),col="red", lty = 2, lwd = 2) 私のオプションは何ですか？

12 r time-series

1

時系列分析が機械学習アルゴリズムと見なされない理由

時系列分析が機械学習アルゴリズムと見なされないのはなぜですか（線形回帰とは異なります）。回帰分析と時系列分析はどちらも予測方法です。では、なぜそれらの1つが学習アルゴリズムと見なされ、他のアルゴリズムと見なされないのでしょうか。

12 regression machine-learning time-series terminology

1

ドリフトのあるシリーズとトレンドのあるシリーズの違い

ドリフトのある系列は、としてモデル化できます。ここで、はドリフト（定数）、です。 yt= c + ϕ yt − 1+ εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tcccϕ = 1ϕ=1\phi=1 傾向のある系列は、としてモデル化できます。ここで、はドリフト（定数）、は確定的な時間傾向、です。yt= c + δt + ϕ yt − 1+ εtyt=c+δt+ϕyt−1+εty_t = c + \delta t + \phi y_{t-1} + \varepsilon_tcccδtδt\delta tϕ = 1ϕ=1\phi=1 どちらのシリーズもあり、どちらの動作も増加していると思います。私（1 ）I(1)I(1) 動作が増加する新しいシリーズがある場合、このシリーズがドリフトまたはトレンドのあるシリーズであることをどのようにして知ることができますか？私は2つの実行できるADFテストを： ADFテスト1：系列がドリフトのあるであるという帰無仮説私（1 ）I(1)I(1) ADFテスト2：Null仮説は、系列が傾向のあるである私（1 ）I(1)I(1) …

12 time-series hypothesis-testing stationarity trend unit-root

3

過去1か月の記録に基づいて売上を予測するための適切な時系列モデルを開発する

今から2年連続でオンラインビジネスを営んでいるので、毎月の売上データが約2年あります。毎月の私のビジネスは、確かに季節変動（クリスマスなどのパフォーマンスが良い）と、おそらく私が気付いていない他のいくつかの要因の影響を受けています。今後の売上をより正確に予測し、私の販売キャンペーンの効果、または新しい競合他社の影響を測定するために、適切な時系列モデルを開発して、現在の売上データを将来に推定できるようにしたいと考えています。これは、予測結果と実際の結果を比較するときに、販売キャンペーンの効果や競合他社の影響を定量的にテストできるようにするためです。私の質問は、私には2年分の販売データがあることを考えると、とにかくこれについて予測時系列モデルを定式化できるかどうかです。注：ブラックボックスツールではなく、背景の概念と理論にもっと興味があります。ツールと言えば、mathematica、matlab、R、Excel、Googleスプレッドシート...という名前です。

12 time-series forecasting

3

2次定常プロセスとは何ですか？

彼の「二次定常プロセス」は、ブロックウェルとデイビスの時系列と予測の紹介でどのように定義されているのか不思議に思っていました。自己回帰移動平均（ARMA）モデルのクラスを含む線形時系列モデルのクラスは、定常プロセスを研究するための一般的なフレームワークを提供します。実際、すべての2次定常プロセスは線形プロセスであるか、決定論的コンポーネントを差し引くことによって線形プロセスに変換できます。この結果はウォルド分解と呼ばれ、セクション2.6で説明します。ではウィキペディア、 2次定常性のケースは、厳密な定常性の要件が時系列の確率変数のペアにのみ適用される場合に発生します。しかし、本はウィキペディアの定義とは異なる定義だと思います。本は広義の定常性に定常性の短いものを使用し、ウィキペディアは厳密な定常性に定常性の短いものを使用しているためです。よろしくお願いします！

12 time-series

1

動的因子分析と状態空間モデル

RのMARSSパッケージは、動的因子分析のための機能を提供します。このパッケージでは、動的因子モデルは、状態空間モデルの特殊な形式として記述され、共通の傾向がAR（1）プロセスに従うと想定しています。私はこれらの2つの方法にあまり詳しくないので、2つの質問が出てきます。動的因子分析は、状態空間モデルの特別な形式ですか？これら2つの方法の違いは何ですか？さらに、動的因子分析は、AR（1）プロセスとして一般的な傾向を想定する必要はありません。季節的なARIMA（またはその他の）プロセスとして共通の傾向を可能にするパッケージはありますか？

12 r time-series forecasting factor-analysis state-space-models

3

2つの時系列間の関係：ARIMA

次の2つの時系列（x、y、以下を参照）が与えられた場合、このデータの長期傾向間の関係をモデル化する最良の方法は何ですか？両方の時系列は、時間の関数としてモデル化されたときに有意なダービン・ワトソン検定を持ち、どちらも定常ではありません（用語を理解しているように、またはこれは、残差で定常である必要があるだけですか？）。これは、基本的にはarima（1,1,0）を使用して、一方を他方の関数としてモデル化する前に、各時系列の1次の差（少なくとも、おそらく2次）を取得する必要があることを意味します。）、arima（1,2,0）などモデル化する前になぜトレンド除去する必要があるのか理解できません。自己相関をモデル化する必要性を理解していますが、なぜ差異化が必要なのかわかりません。私には、差分によるトレンド除去が、関心のあるデータの主要な信号（この場合は長期トレンド）を削除し、より高い周波数の「ノイズ」を残す（ノイズという用語を緩く使用する）ように見えます。確かに、ある時系列と別の時系列との間にほぼ完全な関係を作成し、自己相関がないシミュレーションでは、時系列を差分すると、関係検出の目的に対して直観に反する結果が得られます。たとえば、 a = 1:50 + rnorm(50, sd = 0.01) b = a + rnorm(50, sd = 1) da = diff(a); db = diff(b) summary(lmx <- lm(db ~ da)) この場合、bはaと強く関連していますが、bの方がノイズが多くなります。私にとってこれは、低周波信号間の関係を検出するための理想的なケースでは差分が機能しないことを示しています。差分は時系列分析で一般的に使用されることを理解していますが、高周波信号間の関係を決定するために、より役立つようです。何が欠けていますか？データの例 df1 <- structure(list( x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, …

12 regression time-series arima

3

隠れマルコフモデルとリカレントニューラルネットワーク

それぞれに最適な順次入力問題はどれですか？入力の次元はどちらがより良い一致を決定しますか？「より長いメモリ」を必要とする問題はLSTM RNNに適していますが、周期的な入力パターン（株式市場、天気）の問題はHMMで簡単に解決できますか？重複が多いようです。2つの間に微妙な違いが存在することに興味があります。

12 time-series neural-networks hidden-markov-model rnn

3

ACFおよびPACFはMAおよびAR条件の順序をどのように識別しますか？

私が別の時系列に取り組んでいるのは、2年以上前です。ACFはMA用語の順序を識別するために使用され、PACFはARのために使用されるという多くの記事を読みました。経験則では、MAの場合、ACFが突然停止するラグはMAの順序であり、同様にPACFとARの場合です。ここでの記事の一つ、私は科学のPennState Eberly大学から続きます。私の質問は、なぜそうなのですか？私にとって、ACFでもAR条件を与えることができます。上記の経験則の説明が必要です。親指の法則を直感的/数学的に理解できないのはなぜですか。多くの場合、ARモデルの識別はPACFを使用して行うのが最適です。 MAモデルの識別は、多くの場合、PACFではなくACFを使用して行うのが最善です。ご注意ください：-「なぜ」以外の方法は必要ありません。:)

12 time-series arima autoregressive moving-average

3

Rで中断された時系列分析のリソース

私はRにかなり慣れていません。時系列分析を読み込もうとして、すでに終了しています ShumwayとStofferの時系列分析とそのアプリケーション第3版、 Hyndmanの優れた予測：原則と実践 Avril Coghlan による時系列分析でのRの使用 A. Ian McLeod et al Rによる時系列分析 Marcel Dettling博士の適用時系列分析編集：これをどのように処理するかはわかりませんが、相互検証の外に役立つリソースを見つけました。誰かがこの質問に遭遇した場合に備えて、ここに含めたいと思いました。薬物使用研究における中断された時系列研究のセグメント化回帰分析 7年間毎日測定された消費アイテム数（カウントデータ）の単変量時系列があります。時系列のほぼ中央で調査母集団に介入が適用されました。この介入は、即時の効果を生み出すとは期待されておらず、効果の発現のタイミングは本質的に知られていません。 Hyndmanのforecastパッケージを使用して、ARIMAモデルをを使用して介入前のデータに適合させましたauto.arima()。しかし、このフィットを使用して、傾向に統計的に有意な変化があったかどうかを答え、その量を定量化する方法がわかりません。 # for simplification I will aggregate to monthly counts # I can later generalize any teachings the community supplies count <- c(2464, 2683, 2426, 2258, 1950, 1548, 1108, 991, 1616, 1809, 1688, …

12 r time-series

3

存在しないデータや欠落しているデータをどのように処理しますか？

予測方法を試しましたが、自分の方法が正しいかどうかを確認したいと思います。私の研究は、さまざまな種類の投資信託を比較することです。GCCインデックスをそのうちの1つのベンチマークとして使用したいのですが、問題は2011年9月にGCCインデックスが停止し、私の研究は2003年1月から2014年7月までであるということです。線形回帰を作成しますが、問題は、MSCIインデックスに2010年9月のデータが欠落していることです。これを回避するために、私は次のことを行いました。これらの手順は有効ですか？ MSCIインデックスには2010年9月から2012年7月までのデータがありません。5つの観測値に移動平均を適用することで、「提供」しました。このアプローチは有効ですか？その場合、いくつの観測を使用する必要がありますか？欠落データを推定した後、相互に利用可能な期間（2007年1月から2011年9月）のGCCインデックス（従属変数として）とMSCIインデックス（独立変数として）で回帰を実行し、すべての問題からモデルを修正しました。毎月、xを残りの期間のMSCIインデックスのデータで置き換えます。これは有効ですか？以下は、行ごとに年、列ごとに月を含む、カンマ区切り値形式のデータです。データはこのリンクからも入手できます。シリーズGCC： ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709 2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306 2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817 2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865 2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911 2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192 2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085 2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267 2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802 2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA MSCIシリーズ： ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223 2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127 2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14 2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA 2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA 2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447 2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842 2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA

12 time-series forecasting missing-data

3

AICを最小化してモデルを選択するのはいつが適切ですか？

AIC統計の値が最小値の特定のしきい値内にあるモデルは、AIC統計を最小化するモデルとして適切であると見なす必要があることは、少なくとも一部の高水準の統計家の間で十分に確立されています。たとえば、[1、p.221]には、次に、GCVまたはAICが小さいモデルが最適です。もちろん、GCVやAICを盲目的に最小化すべきではありません。むしろ、適度に小さいGCVまたはAIC値を持つすべてのモデルは、潜在的に適切であると見なされ、その単純さと科学的関連性に従って評価されるべきです。同様に、[2、p.144]には、最小値のc以内のAIC値を持つモデルは、競争力があると見なすべきであると提案されています（Duong、1984）（c = 2を典型的な値として）。競合モデルからの選択は、残差の白色度（セクション5.3）やモデルの単純さなどの要因に基づいて行うことができます。参照：ルパート、D。ワンド、MP＆キャロル、RJ セミパラメトリック回帰、ケンブリッジ大学出版局、2003年ブロックウェル、PJ＆デイビス、RA 時系列と予測入門、ジョンワイリー＆サンズ、1996 それでは、上記を踏まえて、以下の2つのモデルのどちらを優先する必要がありますか？ print( lh300 <- arima(lh, order=c(3,0,0)) ) # ... sigma^2 estimated as 0.1787: log likelihood = -27.09, aic = 64.18 print( lh100 <- arima(lh, order=c(1,0,0)) ) # ... sigma^2 estimated as 0.1975: log likelihood = -29.38, aic = 64.76 …

12 time-series model-selection aic

3

同時方程式モデルと構造方程式モデルの違い

誰かが同時方程式モデルと構造方程式モデル（SEM）の違いを理解するのを手伝ってくれませんか？誰かが私にそれについてのいくつかの文献を提供できるなら、それは素晴らしいことです。また、時系列の文脈でSEMが使用されている文献はありますか？私が入手している文献は、主に断面データのコンテキストでSEMについて説明されています。ありがとうございました！

12 time-series references sem

タグ付けされた質問 「time-series」

タグ付けされた質問「time-series」