タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

1
Rを使用してArimaエラーのある回帰のR-2乗を計算するにはどうすればよいですか?
私のようなarimaオブジェクトがある場合a: set.seed(100) x1 <- cumsum(runif(100)) x2 <- c(rnorm(25, 20), rep(0, 75)) x3 <- x1 + x2 dummy = c(rep(1, 25), rep(0, 75)) a <- arima(x3, order=c(0, 1, 0), xreg=dummy) print(a) 。 Series: x3 ARIMA(0,1,0) Call: arima(x = x3, order = c(0, 1, 0), xreg = dummy) Coefficients: dummy 17.7665 s.e. …

2
複数のサイトの時系列温度データを1つのサイトのデータの関数としてモデル化する方法は?
私は時系列分析に不慣れです。次の時系列回帰問題にどのように対処するのが最善かについての提案をいただければ幸いです。1か所のサイト全体で約20か所の1時間ごとの温度測定と静的な補助情報(勾配、標高、アスペクト、キャノピーカバー)。サイトのサイズは数ヘクタールで、温度記録デバイスは、20〜50 m間隔で、いくつかのトランセクトに沿ってサイト全体に広がっています。約1 km先の気象観測所からの時間別データがあり、風速、風向、湿度、太陽照度などの測定値も提供しています。 ウェザーステーションからのデータのみを使用して、サイトの温度(最小、最大、平均)を(一般的に)予測できるようにしたいと思います。半永久的に設置されているのに対し、現場の温度記録計は3年間しか設置されていませんでした。つまり、本質的に、1つの場所(気象観測所)に複数の独立変数(温度、湿度、風など)がありますが、複数の場所に1つの従属変数(温度)があり、それぞれに複数の時間不変属性があります:勾配、標高、アスペクトなど 私は、サイト内の各温度記録場所の1時間ごとの温度ではなく、サイト全体の毎日の最低気温と最高気温を予測することに最も関心があります。ただし、これらの時間ごとの予測は確かに価値があります。 私の最初のアプローチは、サイトの温度から毎日の平均、最小、および最大を計算し、ウェザーステーションで利用可能な測定を独立変数として使用して、これらを単純な線形回帰の従属変数として使用することでした。これは適度に機能します(2つの予測子でR2> 0.50)。しかし、多くの理由でかなり単純すぎるように思われます。これを行うには、より洗練された(そして強力な)方法が必要だと思います。 まず、私は回帰における毎日の値の時系列の性質については何も明示していませんが、ある日から次の日までの最小または平均気温は、1時間から次に、これらの日次データの独立性に関する問題について疑問に思います(時間ごとの気温を予測しようとした場合は、確かに時間ごとです)。第2に、サイト全体でいくらか相関のある複数の温度測定があることに懸念があるため(気象ステーションのデータと比べて、それらの間の温度測定は非常に類似しています)、サイト全体のすべての測定値の平均または最小値または最大値を使用しています。と比較して、個々の測定場所からのデータを直接含めます。しかし、これにより、各温度測定場所(勾配、標高、アスペクト、キャノピーカバー)、おそらくサイトの場所間の温度差のかなりの部分を説明します。第三に、回帰が気温の非常に強い日周サイクルによって支配されているという懸念のために、私は時間単位ではなく日単位の値のみを調べています。 これを行うためのより良い方法(特にRの場合)、またはどこから探し始めるかについての提案は、最も高く評価されます!時系列を扱うRパッケージがたくさんあることに気づきましたが、このような問題から始めるのに最適な場所を見つけるのに苦労しています。ここでモデル化しようとしています。 更新:これについてもう少し考えます。時系列モデルが本当に適切かどうかは、将来の特定の時点で何が起こるかを予測する必要がないため、ここではわかりません。むしろ、私は単にサイトの温度がウェザーステーションの温度(および他の環境変数)にどのように関連しているかに単に興味があります。後の温度測定が十分に独立していないのではないかと心配したため、おそらく時系列分析は価値があると思いました。確かに、1時間の温度は前の時間に大きく依存しますが、日次データの依存性は弱くなります。どちらの場合も、時系列データの時間相関/非依存性は、時系列予測に関心がない場合に対処する必要がある有効な懸念事項ですか?

1
チャウテストかどうか?
多数の時系列で構造的な破損を検出する自動画面を設定しようとしています。 時系列は毎週であり、顧客の行動を表します。チャウテストを設定しました。私は最近の4週間を使用して、それを直前の22週間と比較します。彼らの最近の行動が前回の行動と大幅に異なるかどうかを知りたいです。 私の質問はこれです: チャウテストはこの質問に最も適切なテストですか? これが最も適切なテストではない場合、どのテストが最も適切なテストかをどのように判断できますか?

2
駐車場での自動車交通をモデル化するための一般的なアプローチ
私の友人から、中型の駐車場での車の交通量の予測モデリングを手伝ってくれるように頼まれました。ガレージには、忙しくて平穏な日、ピーク時、デッドタイムの​​営業時間があります(平日は12時間、週末は8時間営業しています)。 目標は、特定の日(たとえば、明日)に何台の車がガレージに入るか、およびこれらの車が1日を通してどのように分布するかを予測することです。 戦略とテクニックの一般的なリファレンス(できれば、一般公開されているもの)を参照してください。 ありがとうございました

1
予測パッケージのauto.arima()とets()を組み合わせる
多くの単変量時系列を予測するために、予測パッケージのets()およびauto.arima()関数を使用しています。私は次の関数を使用して2つの方法のいずれかを選択していますが、CrossValidatedに自動予測の優れた(またはそれほど単純ではない)アイデアがあるかどうか疑問に思っていました。 auto.ts <- function(x,ic="aic") { XP=ets(x, ic=ic) AR=auto.arima(x, ic=ic) if (get(ic,AR)<get(ic,XP)) { model<-AR } else { model<-XP } model } /編集:この関数はどうですか? auto.ts <- function(x,ic="aic",holdout=0) { S<-start(x)[1]+(start(x)[2]-1)/frequency(x) #Convert YM vector to decimal year E<-end(x)[1]+(end(x)[2]-1)/frequency(x) holdout<-holdout/frequency(x) #Convert holdout in months to decimal year fitperiod<-window(x,S,E-holdout) #Determine fit window if (holdout==0) { testperiod<-fitperiod } …

1
時系列のスケール不変分析
汎用の時系列ソフトウェアを開発する場合、それを不変にスケーリングすることは良い考えですか?どうすればいいですか? 約40ポイントの時系列を取り、10E-9から10E3の範囲の係数を掛けてから、Forecast ProとMinitabのARIMA機能を実行しました。Forecast Proではすべて同じ結果(自動モデリング)が得られましたが、Minitabではそうではありませんでした。Forecast Proの機能はわかりませんが、モデルを実行する前に、すべての数値を特定のスケール(100としましょう)にスケールアップまたはスケールダウンするだけです。これは一般的に良いアイデアですか?

2
日付に基づいてRでデータフレームをサブセット化する[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 非常にシンプルなログファイルのような構造のデータセットがあります。日付範囲に従ってデータをサブセット化したいのですが、1つのパラメーターでしか実行できません。 私のデータは次のようになります: date_time loc_id node energy kgco2 1 2009-02-27 00:11:08 87 103 0.00000 0.00000 2 2009-02-27 01:05:05 87 103 7.00000 3.75900 3 2009-02-27 02:05:05 87 103 6.40039 3.43701 4 2009-02-27 03:05:05 87 103 4.79883 2.57697 5 2009-02-27 04:05:05 87 103 4.10156 2.20254 6 2009-02-27 05:05:05 87 …
8 time-series  r 

4
確率的な中断の犠牲になることなく、時間の経過とともに生産性または費用を理解する
ここで私を助けてください。おそらく私に答えを与える前に、私が質問をするのを手助けする必要があるかもしれません。私は時系列分析について学んだことがなく、それが本当に必要なものかどうかわかりません。私は時間平滑化平均について学んだことがなく、それが本当に私が必要とするものかどうかわかりません。私の統計の背景:私は生物統計学に12のクレジットを持っています(多重線形回帰、多重ロジスティック回帰、生存分析、多因子分散分析、ただし反復測定分析はありません)。 以下のシナリオをご覧ください。私が検索すべき流行語は何ですか、そして私が学ぶ必要があることを学ぶためのリソースを提案できますか? まったく異なる目的でいくつかの異なるデータセットを確認したいのですが、それらすべてに共通するのは、1つの変数として日付があるということです。そのため、いくつかの例が思い浮かびます。時間の経過に伴う臨床生産性(手術の回数やオフィスへの訪問回数など)または時間の経過に伴う電気料金(電気会社に毎月支払われる金額など) 上記の両方について、ほぼ普遍的な方法は、月または四半期のスプレッドシートを1つの列に作成し、もう1つの列に電気代や診療所で見られる患者の数などを作成することです。ただし、1か月に数えると意味のない多くのノイズが発生します。たとえば、通常は毎月28日に電気料金を支払うが、ある場合には忘れてしまい、その翌日3日の5日後にのみ支払う場合、1か月は費用がゼロであるかのように表示され、来月は莫大な費用が表示されます。支払いの実際の日付があるので、非常に細かいデータを暦月ごとに費用にボックス化して意図的に破棄するのはなぜでしょうか。 同様に、私が会議に6日間出かける場合、その月は非常に非生産的であるように見え、それらの6日間が月末近くになると、待機リスト全体があるため、翌月は特徴的に忙しくなります。私に会いたかったが、私が戻るまで待たなければならなかった人々の それからもちろん、明らかな季節変動があります。エアコンは電気をたくさん使うので、明らかに夏の暑さを調整する必要があります。何十億人もの子供たちが、冬の再発性急性中耳炎について私に紹介され、夏と初秋にはほとんど紹介されません。夏休みの後に学校が戻ってくる最初の6週間は、学齢期の子供が選択手術を受ける予定はありません。季節性は、従属変数に影響を与える1つの独立変数です。推測できる変数や未知の変数が他にもあるはずです。 長年にわたる臨床研究への登録を見ると、さまざまな問題がたくさん発生します。 イベントとその実際の日付を確認するだけで、実際には存在しない人工的なボックス(月/四半期/年)を作成せずに、時間の経過とともにこれを確認できる統計のブランチはどれですか。 どんなイベントでも加重平均をすることを考えました。例えば、今週見られる患者数は、今週見られる0.5 * nr +先週見られる0.25 * nr +来週見られる0.25 * nrに等しい。 これについてもっと知りたい。どのような流行語を検索する必要がありますか?

1
時系列データの形状検出
私は時系列の大規模なコレクションを持っています-さまざまな場所で1年間に渡って15分ごと(1日に96回)に測定されました。 私は、各時系列を1年の各日に1つずつ、365個の小さな時系列に分割しました。これらの時系列を見ると、1日には確かに多くの異なる形状があります。いくつかは正弦波に見え、いくつかは一定であり、いくつかはランダムな確率過程のように見え、いくつかは放物線状に見え、いくつかはUのように見えます。 私がやりたいのは、これらの一般的な形状を見つけることができるアルゴリズムを使用することです。クラスタリング、およびクラスターの重心を使用して一般的な形状を定義することを考えましたが、これが正しいかどうかコミュニティに確認したいと思いました。これまでは、メトリックとしてダイナミックタイムワープを見てきましたが、そのメトリックには多くの計算が必要なようです。私も見つけた SEのhttp://mox.polimi.it/it/progetti/pubblicazioni/quaderni/13-2008.pdf。 また、曲線の形状に基づいて時系列クラスタリングを実行することは可能ですか?しかし、この質問は2010年からのものであり、古くなっている可能性があります。 私が持っていた別のアイデアは、次のようにフォーマットされた行列の固有分解を取ることでした: 行列は、i日目に観測されたすべての時系列の行列です。行列M_iのすべての行は、長さ96の時系列です。次に、365の固有分解を行い、固有ベクトルを共通の形状として使用します。これは合理的に聞こえますか?MiMiM_iiiiMiMiM_i ありがとう!

2
時系列のステップの検出
私が話している時系列の写真を添付し​​ました。上が元のシリーズ、下が差分のシリーズです。 各データポイントは、ひずみゲージからの5分間の平均読み取り値です。このひずみゲージは機械に設置されます。ノイズの多い領域は、マシンがオンになっている領域に対応しています。クリーンな領域は、マシンがオフになっているときです。赤い丸で囲まれた部分を見ると、読みに異常なステップがあり、自動的に検出したいと思います。 私はこれをどのように行うことができるかについて完全に困惑しています-アイデアはありますか?

3
Rのリカレントニューラルネットワーク
ニューラルネットワークを使用して時系列、特に再帰型ニューラルネットワークを予測することについて少し聞いたことがあります。 Rのリカレントニューラルネットワークパッケージはありますか?CRANで見つけられないようです。私が来ている最も近いですnnetTsがで機能tsDynのパッケージが、それは単に呼び出すNNETのから機能NNETのパッケージを。それについて特別な、または「繰り返し」は何もありません。

2
時系列残差の正規性と独立性のテスト
ホワイトノイズプロセスの最も単純な形式は、観測値が無相関である場合です。これは、たとえば、Lung-BoxまたはBox-Pierceなどのポルトマンテストを適用することで確認できます。系列は、観測値が無相関で正規分布しているため独立しているガウス白色雑音である可能性があります。これを正規性テストとポートマントーテストでテストできます。私の知る限り、観測値が正規分布されていない無相関で独立している3番目のケースがあります。その場合、観測が独立しているかどうかをどのようにテストできますか?これに対する統計的検定はありますか?


2
予測財務時系列のk倍CV —最後の倍のパフォーマンスはより関連性がありますか?
財務時系列のANNベースの予測モデルに取り組んでいます。私は5分割交差検証を使用しており、平均パフォーマンスはそうです。最後のフォールド(最後のセグメントがトレーニングから省略され、検証に使用される反復)のパフォーマンスは、平均よりも優れています。 これは偶然/データ依存ですか、それとも通常、最後の折り目の検証パフォーマンスは優れていますか?(おそらく、先行するすべてのデータを使用したトレーニングは、時系列内の後続のデータにより関連しているため) これは少し奇妙な質問のように感じますが、とにかくいくつかの応答を期待しています。前もって感謝します :)

1
時系列でイベントのパターンを探す
私は、12匹の魚からなる8つの処理グループを24時間、5秒間隔で観察する時間経過実験を行っています。行われた測定の中には、観測間で各魚が移動する距離(mm)があります。24時間は、1つの暗い期間と1つの明るい期間に分割されます。 以下は、暗期の最初の1時間における処理グループHの12匹の個々の魚の動きのプロットです。 この特定の期間中、一部の魚は長期間非活動状態であり、一部の魚は非活動期間であることがわかります。暗期全体と明期全体の休息期間の長さと頻度を特定できるように、処理グループの12匹すべての魚のデータを組み合わせる必要があります。これは、治療グループごとに行う必要があります。次に、残りの期間の長さと頻度の違いを比較する必要があります。 私は統計ギャルではなく、完全に海にいます。この問題は私(私のバイオインフォマティクスの背景)のシーケンスアラインメントに似ているため、隠れマルコフモデルを考えていますが、これは根本から外れている可能性があります。誰かがこの問題への適切なアプローチを提案し、おそらくRの小さな例を提案できますか? ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.