タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
xスケールは同じであるがRのyスケールが異なる2つのグラフを垂直に積み重ねるにはどうすればよいですか?
ご挨拶、 現在、私はRで次のことをしています: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csvの一部: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最後の2行は必要な情報をプロットしており、結果は次のようになります。 青い線は、関心のあるアーティファクトのバイト単位のエントロピーです。緑の線は、変化のエントロピーを表します。 さて、このグラフでは、スケールに大きな違いがないため、うまく機能します。しかし、緑の線が非常に小さくなって見えなくなる他のグラフがあります。 私が探していたソリューションには、次の2つのことが含まれていました。 …

1
複数の店舗にわたる数千の製品の製品需要予測
私は現在、需要予測タスクに取り組んでおり、数千の店舗にわたる数万の製品に関するデータを使用しています。より具体的には、私は各店舗の製品ごとの数年分の毎日の売上データを持っています。私の目標は、各店舗の各アイテムの将来の売上を1日先に予測することです。その後2日先など これまでは、各製品とストアのペアを1つの時系列に分解し、Neal Wagnerの論文「現実のシステムで複数の時系列を予測するインテリジェントな手法」で行われたように、各時系列の予測を行うことを検討しました。つまり、特定の店舗での製品の売上の履歴情報のみを使用して、その店舗でのその製品の将来の売上を予測します。 ただし、私はKaggleを閲覧しており、CorporacionónFavorita Grocery Sales Forecastingのような競争では、すべての店舗とすべての製品の情報を使用して将来の売上を予測するという別のアプローチが提案されています。私が理解しているように、すべての店舗のすべての製品の履歴販売情報がトレーニングセットにダンプされ、そこからモデルが学習して将来の販売を予測します。これは、従来の時系列手法とは非常に異なりますが、明らかに、競争の結果に基づいて機能します。 後者の方法は、有望でより堅牢なようです。ただし、何億ものデータポイントを処理する必要があるという問題があります。 私のタスクにより適した方法はどれですか?同様の問題に取り組んだことがある人にとって、どの方法論をお勧めしますか?

2
なぜこの例は、在庫ピッキングがスキルを必要としないことを示していますか?
私はダニエル・カーネマンの「思考、高速、低速」を読んでいて、次のテキストに出くわしました 数年前、私は金融スキルの幻想を間近で調べる珍しい機会がありました。私は、非常に裕福な顧客に財務アドバイスやその他のサービスを提供している会社の投資顧問のグループに話すように招待されていました。私はプレゼンテーションを準備するためにいくつかのデータを要求し、小さな宝物を与えられました:連続した8年間のそれぞれについて、25人の匿名の資産顧問の投資結果をまとめたスプレッドシート。各アドバイザーの各年のスコアは、年末ボーナスの彼(彼らのほとんどが男性)の主要な決定要因でした。毎年のパフォーマンスでアドバイザーをランク付けし、彼らの間で永続的なスキルの違いがあったかどうか、同じクライアントが年々クライアントにより良い結果を一貫して達成したかどうかを判断することは簡単なことでした。 この質問に答えるために、各年のペアのランキング間の相関係数を計算しました。年目を年目、年目を年目、以下同様に年目から年目まで計算しました。これにより、年のペアごとに1つずつ、相関係数が得られました。私は理論を知っていて、スキルの持続の弱い証拠を見つける準備ができていました。それでも、相関の平均がであることに驚いた2 1 3 7 8 28 28 0.011112221113337778882828282828280.010.010.01。つまり、ゼロ。スキルの違いを示す一貫した相関関係は見つかりませんでした。結果は、技のゲームではなく、サイコロを転がすコンテストに期待する結果に似ていました。社内の誰も、自社のピッカーがプレイしているゲームの性質を認識していないようでした。アドバイザー自身は、彼らが真面目な仕事をしている有能な専門家だと感じ、上司も同意した。 カーネマン氏は続け、金融業界は主にスキルの幻想に基づいていると主張している。 質問:なぜこの例は、金融業界がスキルの幻想に基づいていることを示していますか?異なる年のランキング間の相関関係がストックピッカーの相対的なスキルについて何かを示していることを理解しています。あれは; ストックピッカーのスキルとストックピッカースキルの比較。しかし、なぜそれがグループとしてのピッカーのスキルについて何と言っているのか私にはわかりません。BあAABBB タイガーウッズとまったく同じスキルを持つゴルファーのグループがあるとします。8年間の成功の相関係数を計算する場合、相関もゼロになるはずですが、それは彼らが弱いプレイヤー/スキルがないことを意味するものではありません。

1
初心者のためのブートストラップをブロックする
私の質問を文脈に当てはめると、私は物理学者ですが、統計への暴露は限られています。それについて私が学んだことは、30年以上前のことです。 私が取り組んでいる問題を解決するのに適した手法である可能性があるため、私はブロックブートストラップについて学習しようとしています。ブロックブートストラップの数学に関する多くの論文/本/情報を見つけることができますが、移動ブロックブートストラップ、円形ブロックブートストラップ、固定ブロックブートストラップなどの問題に「冒険」する前に、まずブロックブートストラップのプロセスの一般的な説明を見つけたいと思います、ブロック長、サンプルサイズなど 相関データをオーバーサンプリングし、5つの変数(列)を10000の観測(行)で抽出しました。これを約100行のデータに減らします。データは時系列ですが、連続的ではなく、異なる場所からのデータも含まれている可能性があります。つまり、同時に異なるデータを持つ可能性があります(後者がブロックブートストラップの問題である場合、「重複した」データを削除できます時間内に)。ブロックブートストラップにより、データの相関を複製できます。 最終的な目的は、データセットを最大100行のデータに減らし、完全なデータセットのpdfとcdfの両方と、削減されたデータセットが5つの変数すべてについて同じ(まだ定義されていない最小誤差範囲内)になるようにすることです。 質問:1)ブロックブートストラップでこれを実行できますか?2)これが行われる段階的なプロセスは何ですか?私は誰もがここで詳細なプロセスを詳細に記述することを期待していませんが、おそらく誰かがYouTubeビデオまたは「ダミーのブートストラップ」をそこから出して、私が始めることができます。 私はここでブロックブートストラップに関する同様の質問を見てきましたが、「時系列分析におけるブロックブートストラップについて学ぶためのリソース」に1つありますが、回答の参照は、まだ習得しなければならない統計的リテラシーを前提としています。

1
時系列モデルの選択:AICとサンプル外のSSEおよびそれらの同等性
AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。 最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。 サンプル外のパフォーマンスに基づいてモデルを比較してみませんか?(たとえば、サンプル外予測でSSEが最も低いモデルを選択します)。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。 AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。 私が働いていた例(ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です)で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。 トレーニングサンプルとテストサンプルのデータを分割しました(任意の時点で、以下の質問について) トレーニングサンプルを使用して、競合するモデル(外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更)を推定しました(最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です)。 次に、テストサンプルと同じ期間(期間231〜260)のシリーズを予測しました。 SSE=∑260t=231(ytˆ−yt)2SSE=∑t=231260(yt^−yt)2SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2ytyty_tytˆyt^\widehat{y_t} AIC(トレーニングデータを使用して計算)で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります(少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します)。 誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。 最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか?(「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。)

3
時系列モデルのサンプリング効果
私は主にAR(I)MAとカルマンの財務時系列モデルで広範囲に取り組んでいます。 私が直面している1つの問題は、サンプリング周波数です。最初は、基礎となるプロセスからより頻繁にサンプリングする可能性が提供された場合、できるだけ多くのサンプルを収集する必要があるため、サンプルの数を大幅に増やすため、モデルパラメーターの変動が少なくなると考えていました。 実際には、このアイデアは良いものにはなりませんでした。何が起こったかというと、基礎となるプロセスが十分な変動を示さない場合、サンプリング周波数を上げると、実際には多くの繰り返し(同じ)値を取得することになります。そして、そのような値に基づいてモデルを構築すると、モデル係数が非常に小さく、将来予測が不十分なモデルになります(もちろん、「よく」の定義は主観的であり、頻度の増加により、より多くのサンプルステップを予測する必要があります。低い周波数設定で同じタイムステップを実現します)。モデルは、最も遭遇するもの、つまりフラットラインを学習します。 アダプティブサンプリングアプローチを実行したいと思いました。つまり、変動がある場合はより頻繁にサンプリングし、変動がない場合はより少ないサンプリングを行いました。しかし、これは簡単ではありません。まず最初に、そうすることでどのようなバイアスを導入しているのかが明確ではありません(サンプル/スキップをトリガーする方法によって異なります)。次に、ARIMAのような時系列モデルは、不均一なサンプルステップにはあまり適していません。 この問題に対処する良い方法はありますか?また、モデルがサンプリング周波数の影響を大きく受けている場合(特に、時間ステップが次第に小さくなる場合)、連続時間モデルと離散時間モデルの間のシームレスな遷移を実現するにはどうすればよいのでしょうか。外部リソースへのポインタも歓迎されます。 ありがとう

1
一定の平均値を持つ時系列の名前は何ですか?
の平均が存在し、すべての時間について一定であるランダムプロセスを考えます。つまり、すべての時間および時間シフト(または「遅れ」)。高いモーメントや分布関数にはこれ以上の条件を課しません。そのようなプロセスをどのように説明できますか?「弱い定常」(つまり、2次の定常性)よりも弱い意味でのみ定常です。E(X T)T E(X T)= E(X T + τ)T τ{ Xt}{Xt}\{X_t\}E( Xt)E(Xt)\mathbb{E}(X_t)tttE( Xt)= E(Xt + τ)E(Xt)=E(Xt+τ)\mathbb{E}(X_t)=\mathbb{E}(X_{t+\tau})tttττ\tau 他の形式の定常性には多くの名前があります。たとえば、弱い場合に「広義の定常」または「共分散定常」を追加することもできます。したがって、いくつかの可能な用語が当てはまると思いますが、考えられるすべての用語には欠点があります。 一次固定、または注文一方に固定は、「二次固定」と「順に静止に類似している」は、しばしばより高いモーメントのために使用される製剤。しかし、平均値が一定のプロセス(ここでは例)で使用される「1次定常」を見てきたが、信号処理で異なる意味で一般的に使用され、検索エンジンのヒットの大部分を提供するフィールド。私がチェックしたすべての信号処理の本は、一次分布関数が時間に対して不変である場合、つまり、すべての時間、と値シフトしますF X (T )(X )= F X (T + τ )(X )T τ X F X (T 1)、X (T 2)(X 1、X 2)= F X (T 1 + τ )、X (t 2 + τ )(xんnnFバツ(t …

2
時間遅延ニューラルネットワークとリカレントニューラルネットワークの違い
ニューラルネットワークを使用して財務時系列を予測したいと思います。私はIT出身で、ニューラルネットワークについてある程度の知識があり、次のことについて読んでいます。 TDNN RNN 私はそれらのRパッケージを探していましたが、RNNの1つだけを見つけました。これは、RNNであるelmanおよびjordan実装を持つRSNNSパッケージです。 では、リカレントニューラルネットワークは(財務)時系列で使用すると便利ですか?彼ら(以前に引用されたRNNのwikipediaリンクからの引用)以来: 各タイムステップで、入力は標準のフィードフォワード方式で伝播され、次に学習ルールが適用されます。固定されたバック接続により、コンテキストユニットは常に非表示のユニットの以前の値のコピーを維持します(学習ルールが適用される前に接続を介して伝播されるため)。したがって、ネットワークは一種の状態を維持でき、標準の多層パーセプトロンの能力を超えるシーケンス予測などのタスクを実行できます。 実際にはむだ時間ニューラルネットワークと同じではありませんか?そうでない場合、むだ時間ニューラルネットワークとの違いは何ですか?どちらも時系列での使用に適していますか、どちらが適していますか? よろしくお願いします!

1
時系列回帰でのローリングウィンドウの使用
私は回帰について学んでいます。私は、いくつかの断面回帰を行っています。最近、単純な時系列回帰を行いました。したがって、それぞれ1000個の観測を含むyおよびxベクトルがあります。 私は、Excelで簡単なols回帰を行いましたが、これは問題ないと思いました。しかし、使用しているローリングウィンドウを尋ねる結果を送信した後、私のオンラインチューターからメールが送られてきました。私はついていないようです。メールで返信しましたが、不在通知があり、彼の意味を理解したいと思っています。 最初の50個の観測値(つまり1:49)を回帰に使用し、次にobs(2:50)を使用して別の回帰を実行するのは、1000個すべての観測値を使用するのではなく単にですか? 私の理解は、私のベクトルのデータが正しく並べられている限り(私の場合は私の日付)、回帰は断面回帰と同じ方法で行われるべきだということでした-私は間違っていますか?

2
ACFおよびPACFプロットの解釈
私の生データは、下降傾向のある60日間の時系列で構成されています。データは毎週なので、頻度は7に設定されます。 このようなデータの差を計算しました 差に対してACFプロットとPACFプロットを実行すると、矛盾した結果が表示されるようです。ACFは最初の遅延期間のプラスの影響を示していますが、PACFはマイナスの影響を示していますか?誰かがこれを解釈するのを手伝ってくれませんか?ARIMAをよりよく理解しようとしています。私がPACFとACFについて見た例は、常に2つが少なくとも方向性が一致していることを示しているようです。

3
軌道をベクトルにマップする方法は?
一連のユーザー向けに、この形式の一連のデータポイント(タイムスタンプ、緯度、経度)があります。各ユーザーは、ポイントAからポイントBに移動するときに軌道を持っています。AからBまでのポイントはいくつあってもかまいません。これらは、タイムスタンプに基づいて順序付けられたデータポイントです。さまざまな分析タスクを実行するベクトルとしてそれらを変換したいと思います。私が考えているのは、ターンを見て、それを次元として作ることです。もっとアプローチを教えてください。必要なのは、軌道全体を表す1つのベクトルです。軌道の1つの点のように考えてください。今、3D点のコレクションがあります。 軌跡類似検索を行いたいのですが。時間内に互いに接近している2つの軌道がある場合、それらは類似しています。自宅から午前9時に仕事に行くような感じで考えてください。午前9時10分に他の誰かが彼の仕事の家でもあり、あなたから少し離れています。uは同じ職場を持っているので、おそらく同じ軌跡をたどります。軌道の上に構築された分類子のようなもの。軌跡でアクティビティ検出を実行できます。また、送信元宛先分析も実行できます。

1
時系列の「レベル」とはどういう意味ですか?
私が研究している多くの文献では、厳密な定義が見つからずに頻繁に出現する用語の1つを調べています。具体的には、私は言われています: 時間インデックス付きランダム変数(RV)場合、加法分解モデルは次のように与えられます。{Xt}{Xt}\{X_t\} Xt=ll(Xt−1,Xt−2,…)+fc(Xt−1,Xt−2,…,εt,εt−1,…)Xt=ll(Xt−1,Xt−2,…)+fc(Xt−1,Xt−2,…,εt,εt−1,…)X_t = {ll}(X_{t-1}, X_{t-2}, \ldots) + {fc}(X_{t-1}, X_{t-2}, \ldots, \varepsilon_t, \varepsilon_{t-1}, \ldots) どこ llllllは長期レベルです。これは確率的プロセスであり、平滑化バージョンとして視覚化できます。決定論的なパターンであるトレンドと混同しないでください。{Xt}{Xt}\{X_t\} fcfcfcは、ローカルレベルの変化を表す変動成分であり、定常的で平均レベルがゼロと仮定 {εt}{εt}\{\varepsilon_t\}はイノベーションであり、IID平均ゼロRVです しかし、間の意味の違い何である傾向対長期レベル対ローカルレベル対平均レベルは? さらに、変動コンポーネントとイノベーションは同じものをモデル化していませんか?これは、各観測に関連するノイズです。それでは、なぜ両方を含めることで複雑にするのでしょうか。

4
オンラインの時系列予測を処理する方法は?
私は以下の問題を扱ってきました。私は一種のリアルタイムシステムを持っており、タイムフレームごとに現在の値を読み取り、時系列(1、12、2、3、5、9、1など)を作成します。オンラインで(新しい値が読み込まれるたびに)次の値を予測する方法(統計および機械学習)を知りたいのですが。RのARIMAとWekaのSMOregを試してみましたが、良い予測が得られましたが、新しい値が来るたびに計算をやり直さなければならないので、それらは少し遅いです。 PSメソッドが信頼区間を持っている場合も素晴らしいです。

3
機械学習手法を使用する場合、時系列データをトレンド除去およびリサイクルする必要がありますか?
例えば: ANNやSVMを使用して、複数の時系列の以前の値に基づいて時系列の将来の値を予測したい。入力は各時系列からの遅れた値であり、出力は1ステップ先の予測になります(これまでの予測を使用して予測を前方に「ローリング」することにより、さらなる視野を持つ予測が行われます)。 さて、SVMとANNはトレンドとサイクルを学習できてはなりませんか?「他のすべてが等しい場合、このシリーズの出力は前の出力の2倍になるはずです」などのことを学習できませんか?または、月のカテゴリ変数を指定した場合、「1月なので、行った予測を2で割りますか?」 データをリサイクルおよびトレンド除去しようとすると、必要以上にバイアスがかかりますか?

2
自己相関時系列エラーと逐次自己相関エラーの間に違いはありますか?
ここに明らかなものがないことは間違いないと思いますが、時系列フィールドの別の用語に混乱しています。私がそれを正しく理解していれば、逐次的な自己相関エラーは回帰モデルの問題です(たとえば、こちらを参照してください)。私の質問は、自己相関エラーを正確に定義するものですか?自己相関の定義を知っており、数式を適用できますが、これは回帰の時系列を理解する上での問題です。 たとえば、毎日の気温の時系列を考えてみましょう。今日(夏時間!)が暑い日なら、明日も暑くなるでしょう。逆もまた同じです。私はこの現象を「シリアルに自己相関したエラー」の現象と呼ぶのに問題があると思う。 より正式には、1つの従属変数と1つの独立変数とモデルを使用した回帰設定を想定します。ytyty_tバツtバツtx_t yt= α + βバツt+ ϵtyt=α+βバツt+εt y_t = \alpha + \beta x_t + \epsilon_t \ epsilon_tがiid であるのに対して、バツtバツtx_tが自己相関している可能性はありますか?もしそうなら、それは自己相関のために標準誤差を調整するすべてのそれらの方法にとって何を意味しますか?それでもそれを行う必要がありますか、それとも自己相関エラーにのみ適用されますか?または、エラー項のそのような設定で自己相関を常にモデル化するので、x_tが自己相関またはe_tである場合、基本的に違いはありませんか?εtεt\epsilon_tバツtバツtx_tetete_t これが私の最初の質問です。混乱が多すぎず、明らかなものを見逃していないことを願っています... Googleで検索してみて、いくつかの興味深いリンク(たとえば、ここSA)も見つけましたが、何の助けにもなりませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.