タグ付けされた質問 「autocorrelation」

自己相関(シリアル相関)は、一連のデータとそれ自体との遅延の相関です。これは時系列分析の重要なトピックです。

4
なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか?
森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項(つまりs(x、y))として含めました。 著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど(たとえば、一般化された加算モデル、Rの紹介、SN Wood)は説明なしで主題に触れています。 誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs(x、y)inとなしのモデル?また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか?

5
自己相関のテスト:Ljung-Box対Breusch-Godfrey
生データまたはモデル残差の自己相関をテストするために非常に頻繁に使用されるLjung-Boxテストを見るのに慣れています。自己相関のための別のテスト、つまりBreusch-Godfreyテストがあることを忘れていました。 質問: Ljung-BoxとBreusch-Godfreyのテストの主な違いと類似点は何ですか? (参考文献は歓迎されている。どういうわけか、私はどの見つけることができませんでした比較私はの説明を見つけることができた。私は、いくつかの教科書に見て、材料をオンラインで検索が二つの試験のを個別に各テストを、しかし、私は、ISに興味を持っています2つの比較。)

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
残差の自己相関をテストする方法は?
多くの価格(750)を持つ2つの列を持つマトリックスがあります。以下の画像では、次の線形回帰の残差をプロットしました。 lm(prices[,1] ~ prices[,2]) 画像を見ると、残差の非常に強い自己相関があるようです。 しかし、これらの残差の自己相関が強いかどうかをどのようにテストできますか?どの方法を使用すればよいですか? ありがとうございました!

3
自己相関の目的は何ですか?
自己相関がなぜそれほど重要なのですか?私はそれの原理を理解しました(私は推測します)。自己相関が発生しない例もあるので、私は疑問に思います:自然界のすべてが何らかの形で自己相関しているのではないのですか?最後の側面は、自己相関自体の一般的な理解をより目指しています。なぜなら、私が言ったように、宇宙のすべての状態は以前の状態に依存していないからです。

4
Rに自己相関エラーがある単純な線形モデル[閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 8か月前に閉鎖されました。 Rの自己相関エラーを含む線形モデルをどのように適合させますか?stataではpraisコマンドを使用しますが、Rに相当するものが見つかりません...

4
ACFおよびPACFの式
時系列データからACFとPACFをプロットするコードを作成したい。このように、minitab(下)からプロットを生成しました。 数式を検索しようとしましたが、まだよくわかりません。 式とその使用方法を教えてください。 上記のACFおよびPACFプロットの水平の赤い線は何ですか?式は何ですか? ありがとうございました、

1
適切な相関構造を持つモデルにも自己相関残差パターンが残っていますか?また、最適なモデルを選択する方法はありますか?
環境 この質問ではRを使用していますが、一般的な統計の問題に関するものです。 私は、幼虫の個体数を年に1回、8年間にわたって12箇所からサンプリングした、ガの個体数の成長率に対する死亡率(病気と寄生による死亡率)の影響を分析しています。人口増加率データは、時間の経過とともに明確だが不規則な周期的傾向を示しています。 単純な一般化線形モデルからの残差(成長率〜%disease +%parasitism + year)は、同様に明確ではあるが不規則な周期的傾向を経時的に示しました。したがって、同じ形式の一般化最小二乗モデルも、複合対称性、自己回帰プロセス次数1、自己回帰移動平均相関構造などの時間的自己相関に対処するために、適切な相関構造でデータに適合しました。 モデルはすべて同じ固定効果を含み、AICを使用して比較され、REMLによって適合されました(AICによる異なる相関構造の比較を可能にするため)。Rパッケージnlmeとgls関数を使用しています。 質問1 GLSモデルの残差は、時間に対してプロットしたときに、ほぼ同じ周期的なパターンを表示します。自己相関構造を正確に説明するモデルであっても、そのようなパターンは常に残りますか? 2番目の質問の下で、Rのいくつかの単純化された類似のデータをシミュレートしました。これは、モデル残差の時間的に自己相関するパターンを評価するために必要なメソッドの現在の理解に基づいて問題を示していますが、これは間違っていることがわかっています(回答を参照)。 質問2 考えられるすべての相関構造を持つGLSモデルをデータに適合させましたが、実際には相関構造のないGLMよりも実質的に良好な適合はありません:1つのGLSモデルだけがわずかに優れています(AICスコア= 1.8低い)より高いAIC値。ただし、これはすべてのモデルがGLSモデルが明らかにはるかに優れているMLではなくREMLによって適合されている場合にのみ当てはまりますが、統計書から、REMLを使用して異なる相関構造と同じ固定効果を持つモデルを比較する必要があることを理解していますここでは詳しく説明しません。 明らかに時間的に自己相関するデータの性質を考えると、単純なGLMよりも適度に優れたモデルがない場合、適切な方法を使用していると仮定して、推論に使用するモデルを決定する最も適切な方法は何ですか(最終的に使用したい異なる変数の組み合わせを比較するAIC)? 適切な相関構造を持つモデルと持たないモデルの残差パターンを調査するQ1「シミュレーション」 「時間」の周期的効果と「x」の正の線形効果を持つシミュレートされた応答変数を生成します。 time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) yは、ランダムな変動を伴う「時間」にわたって周期的な傾向を表示する必要があります。 plot(time,y) そして、ランダムな変動を伴う「x」との正の線形関係: plot(x,y) 「y〜時間+ x」の単純な線形加法モデルを作成します。 require(nlme) m1 <- gls(y ~ time + x, method="REML") モデルは、予想されるように、「時間」に対してプロットされると、残差に明確な周期的パターンを表示します。 plot(time, m1$residuals) …

1
縦カウントデータの分析方法:GLMMでの時間的自己相関の説明
統計の達人とRプログラミングウィザードの皆さん、 私は、動物の捕獲物を環境条件とその日の関数としてモデリングすることに興味があります。別の研究の一環として、私は3年間で約160日間のキャプチャのカウントを持っています。これらの各日には、気温、降雨、風速、相対湿度などがあります。データは同じ5つのプロットから繰り返し収集されたため、プロットをランダム効果として使用します。 私の理解では、nlmeは残差の時間的自己相関を簡単に説明できますが、lme4(自己相関を処理できない?)のような非ガウスリンク関数を処理しません。現在、log(count)でRのnlmeパッケージを使用するとうまくいくと思います。だから今の私の解決策は次のようなものを実行することです: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random = ~1|plot, correlation = corARMA(p = 1, q = 1, form = ~DOY|plot), data = Data) ここで、DOYは年間通算日です。最終モデルにはより多くの相互作用があるかもしれませんが、これは私の一般的な考えです。また、分散構造を次のようなものでさらにモデル化することもできます。 weights = v1Pow ポアソン混合モデル回帰または何かを処理するより良い方法があるかどうかはわかりませんか?KedemとFokianosによる「時系列分析の回帰モデル」の第4章で数学的な議論を見つけました。現時点では、特にアプリケーション(Rでコーディング)で私を少し超えていました。また、ZuurらでMCMCソリューションを見ました。(winBUGSまたはJAGを使用して)BUGS言語のMixed Effects Modelsブック(Chp 23)。それが私の最善の選択肢ですか?これを処理する簡単なMCMCパッケージがRにありますか?私はGAMMやGEEの手法にあまり詳しくありませんが、人々がより良い洞察を提供してくれると思ったら、これらの可能性を喜んで探ります。私の主な目的は、与えられた環境条件で動物の捕獲を予測するモデルを作成することです。第二に、私は動物がその活動の観点からどのような反応をするかを説明したいと思います。 (哲学的に)進むための最良の方法、Rでこれをコーディングする方法、またはBUGSでコーディングする方法についての考えをいただければ幸いです。私はRとBUGS(winBUGS)にはかなり慣れていませんが、学んでいます。これは、時間的自己相関に対処することを試みた最初の例でもあります。 ありがとう、ダン


3
最強の相関を持つデータポイントのサブセットを選択する自動手順
(2つの次元に沿って)最も強い相関を持つ大きなプールからデータポイントのサブセットを選択するための標準的な手順(参照として引用するなど)はありますか? たとえば、100個のデータポイントがあるとします。X次元とY次元に沿って可能な限り強い相関を持つ40ポイントのサブセットが必要です。 これを行うためのコードの記述は比較的簡単だと思いますが、引用するソースがあるかどうか疑問に思っていますか?

1
Newey-West(1987)とHansen-Hodrick(1980)の比較
質問: Newey-West(1987)とHansen-Hodrick(1980)の標準エラーを使用した場合の主な違いと類似点は何ですか?これらのいずれかが他の状況よりも優先されるべき状況はどれですか? ノート: これらの各調整手順がどのように機能するかは知っています。しかし、オンラインでも教科書でも、それらを比較する文書をまだ見つけていません。参照は大歓迎です! Newey-Westは "catch-all" HAC標準エラーとして使用される傾向がありますが、Hansen-Hodrickは重複するデータポイントのコンテキストで頻繁に表示されます(たとえば、この質問またはこの質問を参照)。したがって、私の質問の一つの重要な側面は、それが作るハンセン-Hodrickについては何も存在しているよりニューエイ、西よりの重複データを扱うのに適しては?(結局のところ、データの重複は最終的に直列相関の誤差項につながり、Newey-Westも対処します。) 記録については、私はこの同様の質問を知っていますが、それは比較的不十分なポーズであり、投票され、最終的に私がここで尋ねている質問には答えられませんでした(プログラミング関連の部分のみが答えられました)。

1
「ターゲットの最尤期待値」とは何ですか?
Mark van der Laanの論文を理解しようとしています。彼は、バークレーの理論統計学者であり、機械学習と大きく重複する問題に取り組んでいます。私にとっての問題の1つは(深い数学に加えて)、完全に異なる用語を使用して使い慣れた機械学習アプローチを説明することが多いことです。彼の主な概念の1つは、「ターゲットを絞った最尤予測」です。 TMLEは、交絡因子が存在する場合でも効果を推定できるように、非制御実験からの打ち切り観測データを分析するために使用されます。同じ概念の多くが他のフィールドの他の名前の下に存在することを強く疑いますが、私はまだそれを何かに直接一致させるほど十分に理解していません。 「計算データ分析」とのギャップを埋める試みはこちらです: データサイエンスの時代への突入:対象を絞った学習と、統計と計算データ分析の統合 そして、統計学者の紹介はこちらです: ターゲット最尤ベースの因果推論:パートI 2番目から: この記事では、複数の時点での介入の因果効果の特定のターゲット最尤推定量を開発します。これには、損失ベースのスーパー学習を使用して、G計算式の未知の因子の初期推定値を取得し、その後、各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましいパラメトリックサブモデル)を適用することが含まれます。最尤推定で変動パラメーターを推定し、初期因子のこの更新ステップを収束まで繰り返します。この反復ターゲット最尤更新ステップにより、結果の推定結果の因果効果は、初期推定量が一貫していれば一貫しているという意味で二重ロバストになり、または、最適な変動関数の推定量は一貫しています。介入する因果グラフのノードの条件付き分布が正しく指定されている場合、最適な変動関数が正しく指定されます。 彼の用語では、「スーパー学習」とは、理論的に健全な非負の重み付けスキームを使用したアンサンブル学習です。しかし、「各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましくないパラメトリックサブモデル)を適用する」とはどういう意味ですか。 または、3つの明確な質問に分けて、TMLEには機械学習の類似点がありますか、「最も好ましいパラメトリックサブモデル」とは何か、他の分野の「変動関数」とは何ですか。

1
なぜラグ効果を追加すると、ベイジアン階層モデルの平均逸脱が増加するのですか?
背景:現在、さまざまなベイジアン階層モデルを比較する作業を行っています。データは、参加者iと時間jの幸福度の数値的尺度です。約1000人の参加者と、参加者ごとに5〜10個の観察結果があります。y私はjy私jy_{ij}私私ijjj ほとんどの縦断的データセットと同様に、時間的に近い観測値は、離れた観測値よりも大きな相関関係を持つ何らかの自己相関を期待しています。いくつかのことを簡略化すると、基本モデルは次のようになります。 y私はj〜N(μ私はj、σ2)y私j〜N(μ私j、σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) ここで、遅延のないモデルを比較しています。 μ私はj= β0 iμ私j=β0私\mu_{ij} = \beta_{0i} 遅延モデルの場合: μ私はj= β0 i+ β1(yi (j − 1 )- β0 i)μ私j=β0私+β1(y私(j−1)−β0私)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) ここで者レベルの平均値とされているβ 1はラグパラメータである(すなわち、ラグ効果は、その時点の予測値から前回の時点から観測の偏差の倍数を加算します)。また、y i 0(つまり、最初の観測の前の観測)を推定するためにいくつかのことをしなければなりませんでした。β0 iβ0私\beta_{0i}β1β1\beta_1yi 0y私0y_{i0} 私が得ている結果は次のことを示しています。 遅延パラメーターは、約.18、95%CI [.14、.21]です。すなわち、それは非ゼロです モデルに遅延が含まれると、平均偏差とDICは両方とも数百増加します。 事後予測チェックは、遅延効果を含めることにより、モデルがデータの自己相関をより良く回復できることを示しています したがって、要約すると、ゼロ以外のラグパラメーターと事後予測チェックは、ラグモデルが優れていることを示唆しています。それでも平均逸脱とDICは、遅延のないモデルの方が優れていることを示唆しています。これは私を困惑させます。 私の一般的な経験では、有用なパラメーターを追加する場合、少なくとも平均偏差を減らす必要があります(複雑さのペナルティーの後でもDICは改善されません)。さらに、遅延パラメーターの値をゼロにすると、遅延なしモデルと同じ偏差が得られます。 質問 ラグパラメーターがゼロ以外であり、事後予測チェックが改善される場合でも、なぜラグ効果を追加するとベイジアン階層モデルの平均逸脱が増加するのでしょうか? 最初の考え 私は多くの収束チェックを行いました(たとえば、トレースプロットを見る;チェーンおよびラン全体の逸脱結果の変化を調べる)両方のモデルが後方に収束したようです。 ラグエフェクトを強制的にゼロにするコードチェックを実行しました。これにより、ラグのないモデルの逸脱を回復できました。 また、平均偏差からペナルティーを引いた値を調べました。これにより、期待値で偏差が生じるはずであり、これによりラグモデルが悪化しました。 β0 …

1
従属変数のラグを回帰モデルに含める必要があるのはいつですか?どのラグですか?
従属変数として使用するデータは次のようになります(カウントデータです)。周期的な要素とトレンド構造を持っているため、回帰が何らかの形で偏っていることがわかります。 役立つ場合に備えて、負の二項回帰を使用します。データは、個人(州)ごとに1つのダミーのバランスパネルです。表示されている画像には、すべての状態の従属変数の合計が表示されていますが、ほとんどの状態のみが同様の動作をしています。固定効果モデルを検討しています。従属変数はあまり強く相関しておらず、研究の一部はこの変数間の予期しない関係を見つけることであるため、弱い関係は実際には良いものです。 従属変数の遅延変数を含めないことの正確な危険性は何ですか? 1つ含める必要がある場合、どの1つをテストする必要がありますか。 実装はRで行われています。 注:私はこの投稿を読みましたが、問題の解決にはなりませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.