タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
PCAは時系列データに適用できますか?
主成分分析(PCA)は、基本的に断面データに適用できることを理解しています。年を時系列変数として指定し、PCAを正常に実行することにより、PCAを時系列データに効果的に使用できますか?動的PCAはパネルデータに対して機能し、Stataのコーディングは時系列ではなくパネルデータ用に設計されていることがわかりました。時系列データで機能する特定のタイプのPCAはありますか? 更新。詳細に説明させてください。 現在、道路の長さ、鉄道のルートの長さ、発電能力、電話加入者数などの変数を使用して、インドのインフラストラクチャのインデックスを構築しています。PCAを時系列やパネルデータに適用する論文をレビューしましたが、PCAはiidの仮定を前提とする断面データ用に設計されています。パネルおよび断面データはそれを侵害し、PCAはその中の時系列ディメンションを考慮しません。動的PCAがパネルデータにのみ適用されるのを見てきました。時系列に適用される特定のPCAがあるか、時系列変数として定義された年で静的PCAを実行するかどうかを知りたいですか?
21 time-series  pca 

2
これらのacfおよびpacfプロットの解釈方法
以下は、毎月のデータシリーズのacfおよびpacfプロットです。2番目のプロットは、ci.type = 'ma'を使用したacfです。 acfプロットでの高い値の持続性は、おそらく長期的な正の傾向を表しています。問題は、これが季節変動を表すかどうかです。 このトピックでさまざまなサイトを見ようとしましたが、これらのプロットが季節性を示しているかどうかわかりません。 ACFおよびPACFプロット分析 ACFおよびPACFプロットの解釈を支援 次のACFの図を理解するのに役立ちます 自己相関および部分自己相関解釈 編集:以下は60までのラグのグラフです: 以下は、diff(my_series)のプロットです。 ラグ60まで: 編集:このデータの出所:これは、自殺カウントデータの季節的影響をテストする適切な方法ですか? ここで、寄稿者は、言及する価値のあるオリジナルまたは差分シリーズのacfおよびpacfプロットを考慮しませんでした(したがって、重要ではないはずです)。残差のacf / pacfプロットのみがいくつかの場所で参照されました。

2
時系列の与えられたパワーとクロススペクトル密度のシミュレーション
共分散行列(それらのパワースペクトル密度(PSD)およびクロスパワースペクトル密度(CSD))を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度(PSD)およびクロススペクトル密度(CSD)を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。 逆にしたい場合はどうなりますか? 共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか? 背景理論を含めるか、これを行う既存のツールを指摘してください(Pythonのすべてが素晴らしいでしょう)。 私の試み 以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値(またはアンサンブル平均)として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C(f)= X(f)λ12(f)私λ12(f)X†(f)、C(f)=バツ(f)λ12(f)私λ12(f)バツ†(f)、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

3
スペクトル密度のピークの有意性のテスト
スペクトル密度プロットを使用して、時系列の周期性を分析することがあります。通常、視覚的な検査によってプロットを分析し、周期性について結論を出そうとします。しかし、統計学者は、プロットのスパイクが統計的にホワイトノイズと異なるかどうかを確認するためのテストを開発しましたか?Rエキスパートは、スペクトル密度分析およびそのようなテストを行うためのパッケージを開発しましたか?誰かが助けることができれば素晴らしい。 よろしく、 P。

2
季節ごとの分解方法の選択
季節調整は、さらなる研究のためにデータを前処理する重要なステップです。ただし、研究者には、トレンドサイクルと季節性の分解に関する多くのオプションがあります。最も一般的な(経験的文献の引用数から判断する)競合する季節分解法は、X-11(12)-ARIMA、Tramo / Seats(両方ともDemetra +で実装)およびのstlです。上記の分解手法(または季節ダミー変数のような他の単純な手法)間のランダムな選択を回避するために、季節分解手法を効果的に選択するための基本戦略を知りたいと思います。RRR いくつかの重要なサブ質問(ディスカッションへのリンクも歓迎)は次のとおりです。 メソッドの類似点と相違点、長所と短所は何ですか?ある方法が他の方法よりも望ましい特別なケースはありますか? さまざまな分解方法のブラックボックスの中にあるものへの一般的なガイドを提供できますか? メソッドのパラメーターを選択するための特別なトリックはありstlますか? 時系列が効率的に季節的に調整されるいくつかの(統計)基準(コレログラム分析、スペクトル密度、小さなサンプルサイズの基準、ロバストネス)を提案することは可能ですか?

9
時系列のLjung-Boxテストで使用するラグの数は?
ARMAモデルが時系列に適合した後、Ljung-Box portmanteauテスト(他のテストの中でも)を介して残差を確認するのが一般的です。Ljung-Boxテストは、p値を返します。パラメータhがあり、これはテストするラグの数です。一部のテキストでは、h = 20の使用が推奨されています。他の人はh = ln(n)の使用を推奨します。ほとんどが何を言っていない時間を使用します。 hに単一の値を使用するのではなく、すべてのh <50 に対してLjung-Boxテストを行い、最小のp値を与えるhを選択するとします。そのアプローチは合理的ですか?長所と短所は何ですか?(明らかな欠点の1つは計算時間の増加ですが、ここでは問題ではありません。)これに関する文献はありますか? 少し詳しく説明します。...テストがすべてのhに対してp> 0.05を与える場合、明らかに時系列(残差)がテストに合格します。私の質問は、他の値ではなくhのいくつかの値に対してp <0.05の場合に検定を解釈する方法に関するものです。

2
時系列データでPCAを解釈する方法は?
私は、「クラスタは、コンピューティングとスケールでマッピング脳活動」と題した最近の雑誌の記事でPCAの使用を理解しようとしていますフリーマンら、2014(無料のPDF ラボのウェブサイトで入手可能)。彼らは、時系列データに対してPCAを使用し、PCAの重みを使用して脳のマップを作成します。 データは(と呼ばれる行列として記憶試験平均撮像データであるYを有する紙で)n個のボクセル(または脳の撮像位置)× Tの時点(脳への単一刺激の長さ)。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 彼らは、その結果SVD使用Y = U S V ⊤(V ⊤行列の転置を表すVを)。Y^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 著者は、 主成分(の列)長さのベクトルであり、T、及びスコア(の列Uは)長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、(ボクセル数) 、ボリューム上に投影、つまり全脳マップを形成します。VV\mathbf Vt^t^\hat tUU\mathbf Unnn だから、PCは、長さのベクトルですトン。PCAのチュートリアルで一般的に表現されているように、「最初の主成分がほとんどの分散を説明する」と解釈するにはどうすればよいですか?多くの高度に相関した時系列のマトリックスから始めました-単一のPC時系列は元のマトリックスの分散をどのように説明しますか?私は「最も多様な軸への点のガウス雲の回転」のこと全体を理解していますが、これが時系列にどのように関係するかはわかりません。著者は、「スコア(Uの列)は長さnのベクトルである」と述べるとき、方向によって何を意味しますかt^t^\hat tUU\mathbf Unnn (ボクセルの数)、対応するコンポーネントによって与えられる方向への各ボクセルの投影を記述します」?主成分の時間経過はどのように方向を持つことができますか? 主成分1と2の線形結合と関連する脳マップから得られる時系列の例を見るには、次のリンクに移動し、XYプロットのドットにマウスを合わせます。 2番目の質問は、主成分スコアを使用して作成する(状態空間)軌跡に関連しています。 これらは、(私は上に概説した「微細運動」の例の場合)を最初の2項目を取ることによって作成され、式により主要部分空間への(上記試験平均行列を作成するために使用される)は、個々の試験を投影している:J = U⊤Y。J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. リンクされた映画でわかるように、状態空間の各トレースは、脳全体の活動を表しています。 最初の2台のPCのスコアのXYプロットを関連付ける図と比較して、状態空間ムービーの各「フレーム」が何を意味するかについて、誰かが直感を提供できますか。実験の1回の試行がXY状態空間の1つの位置にあり、別の試行が別の位置にある特定の「フレーム」で何を意味しますか?映画のXYプロットの位置は、私の質問の最初の部分で述べたリンクされた図の主成分トレースとどのように関係しますか?

5
視覚化のために高次元データを削減する方法
2Dの物理シミュレーションに取り組んでおり、いくつかの時点でデータを時間内に収集しています。これらの離散点は垂直軸に沿っており、軸方向に複数の線があります。これにより、データセットが事実上4Dになります。 たとえば、次の(X、Y)座標にコレクションポイントがあると仮定します。 (0,0)、(1,0)、(2,0) (0,1)、(1,1)、(2,1) (0,2)、(1,2)、(2,2) そして、各ポイントで収集しています。ここで、Pは圧力、Tは温度、U 、Vは速度のXおよびY成分です。シミュレーションの各反復で、これらの変数は9つの収集ポイントすべてに対して保存されます。したがって、私のデータはすべて、空間内の各離散点で時間的に連続しています。{P,T,U、V}{P、T、うん、V}\{P,T,U,V\}PPPTTTうん、Vうん、VU,V たとえば、単一ポイントのデータは次のようになります。 たとえば、すべてのポイントで圧力を常に表示して、垂直波と軸波を表示することに興味があります。これを1本の線(垂直または軸)に沿って行う場合、軸(Y、時間、圧力)のウォーターフォールプロットを使用できます。しかし、3本の垂直線と3本の軸線がある場合、これは6つのウォーターフォールプロットになり、両方向の波動の全体像を取得します。空間座標は離散変数ですが、フィールド(この場合は圧力)と時間が連続しています。 T ≈ 0.000125t≈0.000125t\approx0.000125 すべてを一度に表示する方法はありますか?通常、「4番目の」次元を表示するために色を追加できますが、別の可能なアプローチはありますか?できる限り多くの方法でプロットして、他の人が知らない情報が明らかになるかどうかを確認する予定です。アイデアを提案してください。 シミュレーションが3Dで、5Dの結果データセットがあった場合はどうなりますか?それは可能な視覚化方法を変えますか?

3
ARIMAモデルの解釈
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 7年前に移行され ました。 ARIMAモデルについて質問があります。のは、私は時系列があるとしましょうYtYtY_t私は予想してしたいことをARIMA (2 、2 )有馬(2、2)\text{ARIMA}(2,2)モデルは、予測演習を実施するための良い方法のように思えます。 遅れたは、今日のシリーズが以前のイベントの影響を受けていることを示しています。意味あり。しかし、エラーの解釈は何ですか?私の以前の残差(私の計算でどの程度外れていたか)は、今日の私のシリーズの価値に影響を与えていますか?回帰の積/残余であるため、この回帰では時間差残差はどのように計算されますか?Δ Yt= α1Δ Yt − 1+ α2Δ Yt − 2+ νt+ θ1νt − 1+ θ2νt − 2△Yt=α1△Yt−1+α2△Yt−2+νt+θ1νt−1+θ2νt−2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} YYY

1
多くのゼロ値を持つ時系列の分析
この問題は実際には火災検知に関するものですが、いくつかの放射性崩壊検知問題に非常に類似しています。観察されている現象は散発的であり、非常に多様です。したがって、時系列は、変数値によって中断されたゼロの長い文字列で構成されます。 目的は、イベント(ゼロのブレーク)をキャプチャするだけでなく、イベント自体の定量的な特性評価です。ただし、センサーは限られているため、「現実」がゼロ以外であってもゼロを記録する場合があります。このため、センサーを比較するときにはゼロを含める必要があります。 センサーBはセンサーAよりも感度が高い可能性がありますが、統計的に説明したいと思います。この分析では、「真実」はありませんが、センサーAとBから独立したセンサーCがあります。したがって、私の期待は、A / BとCのより良い一致が「真実」とのより良い一致を示すことです。(これは不安定に思えるかもしれませんが、あなたは私を信頼する必要があります-センサーに関する他の研究から知られていることに基づいて、私はここで確固たる地位にいます)。 問題は、「時系列のより良い一致」を定量化する方法です。相関関係は明らかな選択ですが、これらすべてのゼロ(除外することはできません)の影響を受け、もちろん最大値の影響は不均衡になります。RMSEも計算できますが、ゼロに近い場合のセンサーの動作に対して強く重み付けされます。 Q1:時系列分析でゼロと結合される非ゼロ値に対数スケーリングを適用する最良の方法は何ですか? Q2:このタイプの時系列分析に推奨できる「ベストプラクティス」は何ですか。ゼロ以外の値での動作が焦点ですが、ゼロの値が支配的であり、除外できません。

3
カルマンフィルタリングでDLMを予測に使用する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 誰かが時系列のRでDLMカルマンフィルタリングを使用する方法の例を私に教えてくれますか?私はこれらの値を持っていると言います(年ごとの季節性を持つ四半期値); 次の値を予測するためにDLMをどのように使用しますか?ところで、十分な履歴データがありますか(最小値は何ですか)? 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 私はRコードの料理本スタイルのハウツーの段階的な答えを探しています。予測の正確さは私の主な目標ではありません。十分なデータがない場合でも、2011Q2の数字を与えるコードのシーケンスを学習したいだけです。

4
Rに自己相関エラーがある単純な線形モデル[閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 8か月前に閉鎖されました。 Rの自己相関エラーを含む線形モデルをどのように適合させますか?stataではpraisコマンドを使用しますが、Rに相当するものが見つかりません...

1
Rのauto.arima()でxreg引数を設定する方法は?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。 私は、顧客の訪問データ(毎日)を測定する1つの時系列を持つ小さなプロジェクトに取り組んでいます。私の共変量は、Dayデータ収集の最初の日から経過した日数を測定する連続変数と、その日がクリスマスであるか、曜日であるかなどのダミー変数です。 データの一部は次のようになります。 Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 7 12/5/11 3270 2 0 …

2
時間を通じてロジスティック回帰の分類確率を更新する
学期の終わりに生徒が成功する確率を予測する予測モデルを構築しています。生徒が成功するか失敗するかについて、特に興味があります。成功とは、通常、コースを修了し、可能な合計ポイントのうち70%以上を獲得することと定義されます。 モデルを展開するとき、成功確率の推定値は、より多くの情報が利用可能になったときに更新する必要があります-生徒が課題を提出したり、課題を採点したときなど、何かが発生した直後が理想的です。この更新はベイジアンのように聞こえますが、教育統計のトレーニングを考えると、それは私の快適ゾーンの少し外側です。 私はこれまで、週ベースのスナップショットを含む履歴データセットでロジスティック回帰(実際にはなげなわ)を使用してきました。各学生には観測値があるため、このデータセットには相関する観測値があります。1人の生徒の観察結果は相関しています。特定の学生の毎週の観測内の相関関係を具体的にモデリングしているわけではありません。標準エラーは小さすぎるので、推論の設定でそれだけを考慮する必要があると思います。私は、これについてはわかりませんが、相関する観測から生じる唯一の問題は、データの1つのサブセットでクラスター化された観測を維持するために相互検証するときに注意する必要があることです。モデルがすでに見た人物についての予測に基づいて、人工的に低いサンプル外エラー率。Te r m L e n gt h / 7TermLength/7TermLength/7 Rのglmnetパッケージを使用して、ロジスティックモデルで投げ縄を行い、成功/失敗の確率を生成し、特定のコースの予測変数を自動的に選択しています。私は、他のすべての予測変数と相互作用する要素として週変数を使用しています。これは一般的に、個々の週ベースのモデルを推定することとは異なるとは思わないが、異なる週のさまざまなリスク調整係数によって調整される期間全体に適用される一般的なモデルがあるかもしれないというアイデアを提供します。 私の主な質問はこれです:データセットを毎週(または他の間隔ベースの)スナップショットに分割するだけでなく、他のすべての機能と相互作用する期間因子変数を導入するのではなく、分類確率を経時的に更新するより良い方法がありますか?累積機能(累積ポイント、クラスでの累積日数など)を使用していますか? 私の2番目の質問は次のとおりです。私は、相関の観測と予測モデリングについてはこちらを重要な何かが足りないのですか? 私の3番目の質問は次のとおりです。どのように私は毎週のスナップショットをやっている与えられた、リアルタイムの更新にこれを一般化することができますか?現在の毎週の間隔で変数をプラグインすることを計画していますが、これは私にとって厄介なようです。 参考までに、私は応用教育統計の訓練を受けていますが、昔から数学統計の背景を持っています。理にかなっている場合は、より洗練された何かを行うことができますが、比較的アクセスしやすい用語で説明する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.