統計とビッグデータ lags

5

遅れた従属変数を回帰モデルに含めることが合法かどうかについて、私は非常に混乱しています。基本的に、このモデルがYの変化と他の独立変数との関係に焦点を当てている場合、右側に遅延従属変数を追加すると、他のIVの前の係数がYの前の値から独立していることを保証できます。 LDVを含めると、他のIVの係数が下方にバイアスされると言う人もいます。シリアル相関を減らすことができるLDVを含めることができると言う人もいます。私は、この質問がどのような回帰の観点からかなり一般的であることを知っています。しかし、私の統計知識は限られており、時間の経過に伴うYの変化が焦点である場合、回帰モデルに遅延従属変数を含めるべきかどうかを判断するのは本当に困難です。時間の経過に伴うYの変化に対するXの影響に対処する他のアプローチはありますか？DVとしてもさまざまな変化スコアを試しましたが、その状況でのRの2乗は非常に低いです。

26 regression lags misspecification

1

Rの多変量時系列予測の遅れた相関を見つけてモデルを構築する方法

このページは新しく、統計とRはかなり新しいです。私は大学で、雨と川の水位の相関を見つけることを目的としたプロジェクトに取り組んでいます。相関が証明されたら、それを予測/予測したいと思います。データには、以下を含む特定の河川の数年（5分ごとに取得）のデータセットがあります。降雨量（ミリメートル）立方メートル/秒の河川流量この川には雪がありませんので、モデルは雨と時間に基づいています。時々気温が氷点下になることがありますが、この状況は私のプロジェクトの範囲外であるため、これらの期間をデータから除外することを考えています。例ここでは、数時間後の雨と水の上昇からのサンプルデータのプロットがいくつかあります。赤い線は川の流れです。オレンジは雨です。川で水が上がる前にいつも雨が降るのを見ることができます。時系列の終わりに再び雨が降り始めますが、後で川の流れに影響を与えます。相関関係があります。Rでccfを使用して相関関係を証明するためにRで行ったことを次に示します。相互相関先行変数遅れこれは、2番目の例（1つの降雨期間）に使用される私のRラインです。 ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 私の解釈は：雨が降る（最初に起こる）遅れでピークに達する重要な相関関係があり（正確な数を確認できます。その部分は知っています）。≈ 450≈450\approx 450 相関が川の流れに影響を与える時間を見つける方法がわかりません。名前は「保持」だと思います。私が見るものは、川が雨の後に水を失うとき、最初のグラフと同じ形をしたグラフです。それに基づいて、保持がからピークでまで続くと言えない場合（返されたデータフレームで作成されたオブジェクトでこれを確認し、水位が値に戻ったときを確認できます）「雨の前」のことです正しいですか？保持を見つけるより良い方法はありますか？≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 私は正しいですか？時系列について。この時系列には周期性や季節性はありません。雨はいつでも降り、影響を及ぼします。夏には減りますが、それでも起こります。一年中雨が多い地域です。モデルと予測。雨が降った後に川がどれだけの量を増やすかを予測する予測を行うことができるようにモデルを作成する方法がわかりません。私はいくつか試してみましたがarima、auto arimaあまり成功していません。Arima、varsまたは他の異なる多変量モデルを使用する必要がありますか？例へのリンクは大いに役立ちます。この予測を作成する最良の方法を知っている場合は、どのモデルを使用すればよいか教えてください。他にもいくつか検討していることがありますが、簡単にするためにこの説明から除外しています。必要に応じてデータを共有できます。

16 r time-series forecasting cross-correlation lags

1

従属変数のラグを回帰モデルに含める必要があるのはいつですか？どのラグですか？

従属変数として使用するデータは次のようになります（カウントデータです）。周期的な要素とトレンド構造を持っているため、回帰が何らかの形で偏っていることがわかります。役立つ場合に備えて、負の二項回帰を使用します。データは、個人（州）ごとに1つのダミーのバランスパネルです。表示されている画像には、すべての状態の従属変数の合計が表示されていますが、ほとんどの状態のみが同様の動作をしています。固定効果モデルを検討しています。従属変数はあまり強く相関しておらず、研究の一部はこの変数間の予期しない関係を見つけることであるため、弱い関係は実際には良いものです。従属変数の遅延変数を含めないことの正確な危険性は何ですか？ 1つ含める必要がある場合、どの1つをテストする必要がありますか。実装はRで行われています。注：私はこの投稿を読みましたが、問題の解決にはなりませんでした。

14 autocorrelation panel-data fixed-effects-model trend lags

3

残差自己相関とラグ付き従属変数

時系列をモデル化するとき、（1）AR（1）プロセスなどのエラー項の相関構造をモデル化する可能性があります（2）説明変数として遅延従属変数を含む（右側）私は彼らが（2）に進むべき実質的な理由であることを理解しています。ただし、（1）または（2）のいずれか、あるいはその両方を行う方法論的な理由は何ですか？

13 time-series autocorrelation residuals lags

2

ボリューム時系列の相関

次のグラフを検討してください。赤い線（左軸）は、特定の株式の取引量を示しています。青い線（右軸）は、その株式のtwitterメッセージの量を示しています。例えば、5月9日（05-09）に約1億件の取引と4.000のツイートが行われました。私は、同じ日またはラグのある時系列の間に相関があるかどうかを計算したいと思います-例えば：ツイート量は1日後に取引量と相関します。私はそのような分析を行った多くの記事を読んでいます。例えば、金融時系列とマイクロブログ活動との相関関係です。この記事には次のことが記載されています。しかし、私は統計分析の経験がほとんどなく、私が持っているシリーズでこれを実行する方法がわかりません。私はSPSS（PASWとも呼ばれます）を使用しますが、質問は次のとおりです。上記のイメージの基礎となるデータファイルがある時点からこのような分析を行うための手順は何ですか？そのようなテストはデフォルトの機能（およびそれは何と呼ばれる）であるか、および/または他の方法でそれを実行できますか？どんな助けも大歓迎です:-)

12 time-series correlation lags

3

Rで自己相関ランダム値を作成する

時系列として使用される自動相関ランダム値を作成しようとしています。参照する既存のデータはなく、ベクターを最初から作成したいだけです。一方では、もちろん、分布とそのSDを使用したランダムプロセスが必要です。一方、ランダムプロセスに影響を与える自己相関について説明する必要があります。ベクトルの値は、いくつかのタイムラグで強度が減少することと自己相関します。たとえば、lag1には0.5、lag2 0.3、lag1 0.1などがあります。したがって、最終的にベクトルは次のようになります。2、4、7、11、10、8、5、4、2、-1、2、5、9、12、13、10、8、4、3。 1、-2、-5 等々。

11 r time-series random-variable autocorrelation lags

1

短期的な効果と長期的な効果を区別する

私は論文で次の文を読みました：短期係数と長期係数の間に差があるという事実は、遅れた内生変数を含む仕様の結果です。彼らは最初の違いで回帰を実行し、従属変数のラグを含みます。今、彼らは、あなたが出力から推定を見るならば（例えば、この推定をと呼ぶことができるなら）、従属変数に対するpの短期的な影響であると主張します。さらに、p /（1-ラグの推定）を見ると、従属変数に対するpの長期的な影響が得られると彼らは主張しています。ppppppppp この論文は、https：//www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdfと、脚注23の20ページにある短期/長期の影響についての彼らの議論を見つけることができます。従属変数に対する短期効果と長期効果を区別できる理由が正確にわかりません。誰かが彼らの考えをより詳細に説明できれば、それは非常に役に立ちます。ppp

10 regression time-series lags

1

グレンジャー因果関係テストのラグオーダー

私が開発しているARIMAXモデルに含める可能性があるいくつかの独立変数を検討しているとします。異なる変数をフィッティングする前に、グレンジャーテストを使用して逆因果関係を示す変数を選別します（他のgranger.test実装MSBVARも同様に機能すると思いますが、R のパッケージの関数を使用しています）。テストする必要のあるラグの数をどのように決定しますか？ R関数は次のとおりgranger.test(y, p)です。yは、データフレームまたは行列で、pはラグです。帰無仮説は、過去の値がYの値の予測に役立たないというものです。XpppXXXYYY ここで非常に高いラグを選択しない理由はありますか（観測の喪失を除く）？依存する時系列の統合の順序に基づいて、データフレーム内のすべての時系列がすでに異なっていることに注意してください。（たとえば、従属時系列を差分すると、それが定常状態になりました。したがって、すべての「独立」時系列も一度差分しました。）

10 lags granger-causality

3

外部変数を使用した時系列データの予測

現在、時系列データ（月次データ）の予測を行うプロジェクトに取り組んでいます。私はRを使用して予測を行っています。1つの従属変数（y）と3つの独立変数（x1、x2、x3）があります。y変数には73個の観測値があり、他の3個の変数にもあります（alos 73）。2009年1月から2015年1月まで。相関とp値を確認しましたが、モデルに入れることはすべて重要です。私の質問は、どのようにすればすべての独立変数を使用して適切な予測を行うことができますか？これらの変数の将来の値はありません。2年後（2017年）のy変数を予測したいとします。これどうやってするの？私は次のコードを試しました： model = arima(y, order(0,2,0), xreg = externaldata) このコードで2年間のy値の予測を行うことはできますか？私は回帰コードも試しました： reg = lm(y ~ x1 + x2 + x3) しかし、このコードでどのように時間をかけますか？yの値が2年になると予測するにはどうすればよいですか？統計と予測は初めてです。いくつかの読み取りを行ってラグ値をカムしていますが、モデルでラグ値を使用して予測を行うにはどうすればよいですか？実際、私の全体的な質問は、将来の値がない外部変数を含む時系列データをどのように予測できるかということです。

10 time-series multiple-regression forecasting lags

6

グループ化された時系列の遅延

時系列にはありますが場所ごとにグループ化された数万の観測があります。例えば： location date observationA observationB --------------------------------------- A 1-2010 22 12 A 2-2010 26 15 A 3-2010 45 16 A 4-2010 46 27 B 1-2010 167 48 B 2-2010 134 56 B 3-2010 201 53 B 4-2010 207 42 私は月かどうかを確認したいのxさんは、observationA月との任意の線形の関係があるのx + 1つのをobservationB。私はいくつかの調査を行い、zoo関数を見つけましたが、グループごとの遅延を制限する方法がないようです。したがって、動物園を使用しobservationB、1行遅れている場合observationB、場所Bが最初になり、場所Aが最後になりますobservationB。私はむしろ、「この行に触れないでください」を示す最初observationBの場所NAまたは他の明白な値を設定したいと考えています。私が得ているのは、Rでこれを行う組み込みの方法があるかどうかです。そうでない場合は、標準のループ構造でこれを実行できると思います。それともデータを操作する必要がありますか？

10 r regression time-series lags

1

連結された独立したAR（1）プロセスの自己相関

ましょう IIDは各ドローすなわち長さ10のベクトルであるAR（1）プロセスから描画連結することによって形成された確率論的プロセスであり、はAR（1）プロセスの実現です。は同じプロセスから描画されますが、最初の10個の観測から独立しています。など。{ X 1、X 2、… 、X 10 } { X 11、X 12、… 、X 20 }{ Xt}{Xt}\left\{X_t\right\}{ X1、X2、… 、X10}{バツ1、バツ2、…、バツ10}\left\{X_1, X_2, \ldots, X_{10}\right\}{ X11、X12、… 、X20}{バツ11、バツ12、…、バツ20}\left\{X_{11}, X_{12}, \ldots, X_{20}\right\} ACF何をします -それを呼び出すのように見て- ？仮定により、10個の観測値の各ブロックは他のすべてのブロックから独立しているため、長さラグの場合、はゼロであると期待していました。ρ （L ） ρ （L ） L ≥ 10バツバツXρ （l ）ρ（l）\rho\left(l\right)ρ （l ）ρ（l）\rho\left(l\right)L ≥ 10l≥10l \geq 10 しかし、データをシミュレートすると、次のようになります。 simulate_ar1 <- function(n, burn_in=NA) …

8 r autocorrelation independence lags

1

回帰を伴う時系列データの相互検証

「通常の」相互検証に精通していますが、単純な線形回帰関数で相互検証を使用しながら時系列予測を行いたいと思います。2つの質問を明確にするために簡単な例を書き留めます。1つはトレーニング/テストの分割について、もう1つは目的が異なるnについて予測することである場合にモデルをトレーニング/テストする方法について1つの質問で、nの予測ステップで、前進。（1）データ次のように、タイムポイント1、...、10のデータがあるとします。 timeseries = [0.5,0.3,10,4,5,6,1,0.4,0.1,0.9] （2）教師あり学習に役立つ形式にデータを変換する私が理解している限り、「ラグ」、つまりデータのシフトを使用して、教師あり学習に適したデータセットを作成できます。 input = [NaN,0.5,0.3,10,4,5,6,1,0.4,0.1] output/response = [0.5,0.3,10,4,5,6,1,0.4,0.1,0.9] ここでは、出力ベクトルを作成するために、時系列を1つずつシフトしています。私が理解している限り、線形回帰モデルの入力として入力を使用し、応答の出力を使用できます（NaNは、ランダムな値に置き換えて近似できます）。（3）質問1：相互検証（「バックテスト」）今2スプリットを実行したいのですが、テストセットだけでなく列車もシフトする必要がありますか？つまり次のようなものです：列車セット：独立変数：[NaN、0.5,0.3,10,4,5] 出力/応答変数：[0.5,0.3,10,4,5,6] テストセット：独立変数：[1,0.4,0.1] 出力/応答変数：[0.4,0.1,0.9] （ii）質問2：異なるラグを事前に予測する：明らかなように、従属変数への従属変数を1だけシフトしました。ここで、5つのタイムステップを事前に予測できるモデルをトレーニングしたいとします。このラグを1に保ちながら、モデルを使用してn + 1を予測できます。、...、n + 5、...または、独立変数から従属変数へのシフトを5に変更しますか？違いは何ですか？

8 machine-learning time-series forecasting cross-validation lags

タグ付けされた質問 「lags」

タグ付けされた質問「lags」