タグ付けされた質問 「autocorrelation」

自己相関(シリアル相関)は、一連のデータとそれ自体との遅延の相関です。これは時系列分析の重要なトピックです。

2
ACFおよびPACFプロットを解釈する方法
ACFプロットとPACFプロットを正しく解釈していることを確認したいだけです。 データは、実際のデータポイントとAR(1)モデルを使用して生成された推定値の間に生成されたエラーに対応します。 私はここで答えを見ました: ACFおよびPACF検査によりARMA係数を推定する エラーを自動相関させていないようですが、確認したいのですが、私の懸念は次のとおりです。 1.)最初のエラーは境界の右側にあります(これが当てはまる場合、ラグ1に有意な自己相関があることを受け入れるか拒否する必要がありますか)? 2.)線は95%の信頼区間を表しており、116のラグがあることを前提として(0.05 * 116 = 5.8、6に切り上げます)、6つのラグが境界を超えると予測されます。ACFの場合はこれに該当しますが、PACFの場合は約10の例外があります。国境にそれらを含めると、14のようになりますか?これはまだ自己相関がないことを示していますか? 3.)95%信頼区間のすべての違反がマイナス面で発生しているという事実に何かを読む必要がありますか?

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
教師あり学習データセットの自己相関は問題ですか?
次の問題を想像してみてください。Kアイテムの価格データと、さまざまな機能/予測子のスナップショットを毎週持っています。2年後の価格がどのくらい変わるか予測したい。 次のようにデータセットを組み立てます。各行は各週の各アイテムの機能で構成され、出力変数は2年間の価格リターンです。観測の日付がデータセットにない-私はそれをデータセットをトレーニングと検証セットに分離するためにのみ使用します。つまり、相互検証(検証期間の前後2年間のデータを破棄します) 1年)データの盗聴を防止するため)。 明らかに、同じ項目(および異なる項目の場合も)の2週間連続のサンプルは、機能と応答変数の両方の点で高度に相関します(今後2年間は大部分が重複するため、リターンを意味します)非常に似ています)。ランダムフォレストや勾配ブーストツリーなど、教師付き学習アプローチにどのような潜在的な問題が発生する可能性がありますか? 私の考えは: データセットの有効サイズは、予想よりも小さくなります。つまり、たとえば100,000の観測のデータセットは、100'000 /(52 * 2)〜= 1000の観測のデータセットのように動作します。これは、応答に自己相関がないサンプルの数だからです。これは、データに適合できるモデルの複雑さに大きく影響します。つまり、過剰適合問題が発生し、予想よりもはるかに悪い結果になります。 フィーチャスペース内の各アイテムの連続した週にフィーチャが互いに非常に接近しているため、私のデータセットはフィーチャスペースを予想よりもかなりカバーし、データセットの「有効」サイズが減少します。 クロスバリデーションの検証に1年分のデータのみを使用すると、クロスバリデーションの結果の分散が大きくなります。これも、検証セットのサンプルの有効数が52 * Kではなく〜Kになるためです。 これらは有効な懸念事項ですか?はいの場合、K〜= 100の場合、ランダムフォレストや勾配ブーストツリーを使用するなど、数百の機能から合理的に複雑な非線形モデルをトレーニングするには、数千年ではなくても数百のデータが必要になるということですか?それとも、私は過度に悲観的で、上記の「有効なデータセットのサイズ」に関する私の議論は無意味ですか?

1
座標を予測子とする回帰による空間トレンドのモデリング
データに存在する空間トレンドを調整するために、回帰方程式に共変量として座標を含める予定です。その後、ランダム変動の空間自己相関の残差をテストしたいと思います。いくつか質問があります。 独立変数のみが座標と座標である線形回帰を実行してから、空間自己相関の残差をテストする必要がありますか、それとも共変量として座標だけでなく他の変数も含めてから残差をテストする必要があります。yxxxyyy 二次傾向があると予想し、だけでなく、、、も含める場合、それらの一部(および)は、値がしきい値- より大きな値を持つ変数を重要ではないものとして除外する必要がありますか?次に、傾向をどのように解釈すればよいでしょうか?これは確かにもう二次式ではありませんか?x y x 2 y 2 x y y 2 p px,yx,yx,yxyxyxyx2x2x^2y2y2y^2xyxyxyy2y2y^2pppppp 私は座標と座標を他の共変量と同様に扱い、部分残差プロットを作成して従属変数との線形関係をテストする必要があると思いますが、一度変換すると(変換が必要であることがわかった場合)、それはできませんそのような傾向になります(特に、次傾向の、およびを含める場合)。これは、ことを示していることがあり一方で、例えば、変換を必要としないか、そうですか?これらの状況でどのように対応すべきですか?y x y x 2 y 2 x 2 xxxxyyyxyxyxyx2x2x^2y2y2y^2x2x2x^2xxx ありがとうございました。

4
自己相関およびニューラルネットワークにMatlabを使用する場合、時系列データのギャップ/ NaNを処理する方法は?
時系列の測定(高さ-1次元シリーズ)があります。観測期間中、いくつかの時点で測定プロセスがダウンしました。したがって、結果のデータは、データにギャップがあったNaNのベクトルです。これは、MATLABを使用して、自己相関の計算(autocorr)とニューラルネットワークの適用()の際に問題を引き起こしていますnnstart。 これらのギャップ/ NaNはどのように処理されるべきですか?これらをベクターから削除するだけですか?または、それらのエントリを補間された値に置き換えますか?(もしそうなら、MATLABでどうやって)

2
変数が自己相関している場合、回帰を信頼できますか?
両方の変数(依存および独立)は自己相関効果を示します。データは時系列で定常的です 回帰を実行すると、残差が相関していないように見えます。私のダービン・ワトソン統計は臨界値よりも大きいので、エラー項が正の相関関係にないという証拠があります。また、エラーのACFをプロットすると、相関関係がないように見え、Ljung-Box統計が臨界値よりも小さくなっています。 回帰出力を信頼できますか?t統計は信頼できますか?

1
PACF手動計算
SASとSPSSが部分自己相関関数(PACF)に対して行う計算を再現しようとしています。SASでは、Proc Arimaを通じて生成されます。PACF値は、系列の遅れた値に対する対象の系列の自己回帰の係数です。関心のある変数は販売なので、lag1、lag2 ... lag12を計算し、次のOLS回帰を実行します。 Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Y_t=a_0+a_1Y_{t-1}+a_2Y_{t-2}+a_3Y_{t-3}+\ldots+a_{12}Y_{t-12}. 残念ながら、私が得た係数は、SASまたはSPSSが提供するPACF(1から12のラグ)にも近づいていません。助言がありますか?何か問題がありますか?私の頭に浮かぶのは、このモデルの最小二乗推定は適切ではない可能性があり、おそらく別の推定手法を使用する必要があるということです。 前もって感謝します。


2
ACFおよびPACFプロットの解釈
私の生データは、下降傾向のある60日間の時系列で構成されています。データは毎週なので、頻度は7に設定されます。 このようなデータの差を計算しました 差に対してACFプロットとPACFプロットを実行すると、矛盾した結果が表示されるようです。ACFは最初の遅延期間のプラスの影響を示していますが、PACFはマイナスの影響を示していますか?誰かがこれを解釈するのを手伝ってくれませんか?ARIMAをよりよく理解しようとしています。私がPACFとACFについて見た例は、常に2つが少なくとも方向性が一致していることを示しているようです。

1
HMC:ディメンションが多すぎますか?
私が読んだハミルトニアンモンテカルロは、MCMC問題が高次元である場合の"goto" メソッドです。 実際には、10、100、1,000、10,000、100,000などのディメンションの数は多すぎますか?計算コストが問題になることは間違いありません。使用するモデルを検討することが重要だと思いますが、それを別にして、目的の分布を使用して適切なサンプルを取得する場合、次元数に実際的な制限はありHMCますか? また、個々のパラメーターのトレースプロット、実行平均、自己相関などをチェックするにはパラメーターの数が多すぎる問題について、収束(または私が推測できないこと)をどのように監視できますか? 更新:非視覚的診断に言及しているこの投稿を見つけました

2
自己相関時系列エラーと逐次自己相関エラーの間に違いはありますか?
ここに明らかなものがないことは間違いないと思いますが、時系列フィールドの別の用語に混乱しています。私がそれを正しく理解していれば、逐次的な自己相関エラーは回帰モデルの問題です(たとえば、こちらを参照してください)。私の質問は、自己相関エラーを正確に定義するものですか?自己相関の定義を知っており、数式を適用できますが、これは回帰の時系列を理解する上での問題です。 たとえば、毎日の気温の時系列を考えてみましょう。今日(夏時間!)が暑い日なら、明日も暑くなるでしょう。逆もまた同じです。私はこの現象を「シリアルに自己相関したエラー」の現象と呼ぶのに問題があると思う。 より正式には、1つの従属変数と1つの独立変数とモデルを使用した回帰設定を想定します。ytyty_tバツtバツtx_t yt= α + βバツt+ ϵtyt=α+βバツt+εt y_t = \alpha + \beta x_t + \epsilon_t \ epsilon_tがiid であるのに対して、バツtバツtx_tが自己相関している可能性はありますか?もしそうなら、それは自己相関のために標準誤差を調整するすべてのそれらの方法にとって何を意味しますか?それでもそれを行う必要がありますか、それとも自己相関エラーにのみ適用されますか?または、エラー項のそのような設定で自己相関を常にモデル化するので、x_tが自己相関またはe_tである場合、基本的に違いはありませんか?εtεt\epsilon_tバツtバツtx_tetete_t これが私の最初の質問です。混乱が多すぎず、明らかなものを見逃していないことを願っています... Googleで検索してみて、いくつかの興味深いリンク(たとえば、ここSA)も見つけましたが、何の助けにもなりませんでした。

2
マルコフ連鎖のカテゴリー値における自己相関の測度?
直接的な質問:(順序付けられていない)カテゴリカル変数の観測値のシーケンスの自己相関の測定値はありますか? 背景: カテゴリー変数からサンプリングするためにMCMCを使用していて、私が開発したサンプリング方法が事後分布全体でどの程度うまく混合しているかを測定したいと思います。私はacfプロットと連続変数の自己相関に精通していますが、このカテゴリー変数の遷移確率行列を見て止まっていました...何か考えはありますか?

3
一連の独立した乱数の差分のL番目の階数をとるときの高い自己相関
この質問をより詳細に説明するために、まず私のアプローチを詳しく説明します。 一連の独立した乱数をシミュレートしました。X={x1,...,xN}X={x1,...,xN}X = \{x_1,...,x_N\} 次に、倍の差を取ります。つまり、変数を作成します。LLL dX1={X(2)−X(1),...,X(N)−X(N−1)}dX1={X(2)−X(1),...,X(N)−X(N−1)}dX_{1} = \{X(2)-X(1),...,X(N)-X(N-1)\} dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX_{2} = \{dX_{1}(2)-dX_{1}(1),...,dX_{1}(N-1)-dX_{1}(N-1-1)\} ......... dバツL= { dバツL − 1(2 )− dバツL − 1(1 )、。。。、dバツL − 1(N− L )− dバツL − 1(N− L − 1 )}dXL={dXL−1(2)−dXL−1(1),...,dXL−1(N−L)−dXL−1(N−L−1)}dX_{L} = \{dX_{L-1}(2)-dX_{L-1}(1),...,dX_{L-1}(N-L)-dX_{L-1}(N-L-1)\} が大きくなると、の(絶対)自己相関が増加することがます。ACは場合でも0.99に近づきます。つまり、L次の差をとるとき、最初は独立したシーケンスから、一連の非常に依存する数(シーケンス)を作成します。dバツLdXLdX_{L}LLLL > 100L>100L >100 これが私の観察を説明するグラフです。 私の質問: このアプローチの背後にある理論、およびその含意またはそのアプリケーションへの応用はありますか? これは、このアプローチが(コンピューターの)疑似乱数ジェネレーターの弱点を悪用していることを示していますか?つまり、生成された「ランダム」シーケンスは完全にランダムではなく、これは私のアプローチから示されている/証明されていますか? シーケンスの次の数(つまり)を予測するために、L次の差異の高い自己相関を利用できますか?つまり、次の数を予測できる場合(たとえば、線形回帰によって)、累積合計の倍をとることによって、推定シーケンスを推定できます。これは実行可能なアプローチですか?バツ(N+ 1 )X(N+1)X(N+1)dバツLdXLdX_{L}バツ(私)X(i)X(i)LLL 客観的 注意は、私が予測しようとしていることをが、番号がindependentalyとランダムに生成されているので、これは(の低交流は非常に困難である)。バツ(N+ 1 )X(N+1)X(N+1)NNN

1
定常系列のサンプル自己相関の合計が-1/2になるのはなぜですか?
この定常系列の特性と自己相関関数について頭をつかむことができません。私はそれを証明しなければなりません ∑h=1n−1ρ^(h)=−12∑h=1n−1ρ^(h)=−12\begin{align} \sum_{h=1}^{n-1}\hat\rho(h)=-\frac{1}{2} \end{align} ここで、およびは自動共分散関数ですγ(H)ρ^(h)=γ^(h)γ^(0)ρ^(h)=γ^(h)γ^(0)\hat\rho(h)=\displaystyle\frac{\hat\gamma(h)}{\hat\gamma(0)}γ^(h)γ^(h)\hat\gamma(h) γ^(h)=1n∑t=1n−h(Xt−X¯)(Xt+h−X¯)γ^(h)=1n∑t=1n−h(Xt−X¯)(Xt+h−X¯)\begin{align} \hat\gamma(h) = \frac{1}{n}\sum_{t=1}^{n-h}(X_t-\bar{X})(X_{t+h}-\bar{X}) \end{align} うまくいけば、誰かが証明を手伝ってくれるか、少なくとも私を正しい方向に向けることができます。

1
ラグ1と2で負の自己相関が発生する可能性はありますか?
私の統計ノートを通過するいくつかの心のゲームをやっているだけ... ラグ1と2で負の値を持つACFを見てきました-ここで空白を持っているかもしれませんが、ラグ1で負のACが高くなると、(-1,1、-1,1、 ...)そのため、ACが正と負を交互に繰り返すことを期待しますか? ここで私が完全に間違っている場合-ラグ1と2の両方に強い負のACがある簡単な構成例はありますか? ありがとうございました!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.