タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

3
不規則な間隔で集計されたデータに基づいて予測する方法は?
自動販売機での売上を予測してみます。問題は、マシンが不規則な間隔で充填されており、充填ごとに、マシンの最後の充填以降の総売上高しか記録できないことです(つまり、毎日の売上データはありません)。したがって、基本的には不定期に集計された売上のデータがあります。間隔は通常2日から3週間です。これは、1台の自動販売機と1つの製品のデータ例です。 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 現在の単純なアルゴリズムは、過去90日間に販売された合計数量を90で割ることにより、1日あたりの平均売上を計算することです。 1日あたりの売上予測を改善する方法はありますか?次回のマシン訪問時に何が販売されるかを予測する必要があります。データの性質を考慮して、ある種の指数平滑アルゴリズムを使用することは可能ですか? 前もって感謝します! 更新:すべての回答とコメントをありがとうございます。もう少しコンテキストを説明してみましょう(質問の背後にあるビジネスケース-もちろん非常に単純化されています)。私たちは何百もの自動販売機を持っています。毎日、補充のために訪れる20人を決定する必要があります。そのために、マシンの現在のステータスを予測し、「空の」20マシンを選択しようとしています。各マシンと製品について、上記の単純なアルゴリズムを使用して1日あたりの平均売上(SPD)を計算しています。次に、SPDにマシンの最後の充填からの日数を掛けます。結果は予測販売量です。

8
過去の購入のデータから、どのアルゴリズムを使用して消耗品の使用を予測できますか?
おそらく単純だが興味深い問題について考えて、以前の購入の完全な履歴を踏まえて、近い将来に必要になる消耗品を予測するためのコードを書きたいと思います。この種の問題には、より一般的でよく研究された定義があるはずです(これがERPシステムなどのいくつかの概念に関連していると誰かが示唆しました)。 私が持っているデータは、以前の購入の完全な履歴です。私が紙の供給を見ているとしましょう、私のデータは(日付、シート)のようになります: 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 定期的に「サンプリング」されないので、時系列データとしての資格はないと思います。 毎回の実際の在庫レベルに関するデータはありません。このシンプルで限られたデータを使用して、(たとえば)3、6、12か月で必要になる紙の量を予測します。 これまでのところ、私が探しているものは外挿と呼ばれ、それ以上ではないことがわかりました:) このような状況で使用できるアルゴリズムは何ですか? また、前のアルゴリズムと異なる場合、どのアルゴリズムが現在の供給レベルを示すいくつかのデータポイントを利用することもできますか(たとえば、日付XIにY枚の紙が残っていることがわかった場合)。 これについてより良い用語を知っている場合は、質問、タイトル、タグを自由に編集してください。 編集:それが価値があるもののために、私はこれをPythonでコーディングしようとしています。多かれ少なかれアルゴリズムを実装するライブラリがたくさんあることは知っています。この質問では、実際の実装は読者の練習問題として残して、使用できる概念と手法を探っていきたいと思います。

1
時系列予測を行う際の推奨事項
私は何カ月も短期的な負荷予測と精度を向上させるための気候/気象データの使用に取り組んできました。私はコンピューターサイエンスのバックグラウンドを持っているので、ARIMAモデルなどの統計ツールを使用して、大きな間違いや不当な比較を行わないようにしています。私はいくつかのことについてあなたの意見を知りたいです: (S)ARIMAモデルと(S)ARIMAXモデルの両方を使用して、気象データが予測に与える影響を調査していますが、指数平滑法も使用する必要があると思いますか? 最初の2週間から始めて、300サンプルの時系列の時系列があり、auto.arima R関数(予測パッケージ)で構築されたモデルを使用して5日間先の予測を実行します。次に、データセットに別のサンプルを追加し、モデルを再度キャリブレーションし、さらに5日間の予測を実行して、使用可能なデータが終わるまで続けます。この操作方法は正しいと思いますか? エンジニアリングジャーナルの記事をターゲットにしていますが、統計的な観点からできる限り厳密な作業を行いたいと思います。

2
非常に不規則な時系列
私は、約5年間にわたってサンプリングされた、非常に不規則なパターンで、さまざまな魚の個体数のデータを持っています。サンプル間に数か月ある場合もあれば、1か月に複数のサンプルがある場合もあります。0カウントもたくさんあります そのようなデータをどのように扱うのですか? Rでは十分簡単に​​グラフ化できますが、非常にでこぼこなので、グラフは特に明るくはありません。 モデリングの観点から-種をさまざまなものの関数としてモデル化-多分混合モデル(別名マルチレベルモデル)。 どんな参考やアイデアも歓迎します コメントに応じた詳細 約15種あります。 私は、各魚の傾向や季節性を把握し、種が互いにどのように関連しているかを調べようとしています(クライアントはもともと、単純な相関関係の表が必要でした) 目標は予測的ではなく、説明的で分析的です さらに編集:私はこの論文をK. Rehfieldらによって見つけました。これは、ガウスカーネルを使用して非常に不規則な時系列のACFを推定することを示唆しています http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf

3
データポイントの平均化による2つの時系列の結合
Mean Squared Prediction Errorを最小化することにより、時系列データセットの予測とバックキャスト(つまり過去の予測値)を1つの時系列に結合したいと思います。 2001年から2010年までの時系列があり、2007年のギャップがあるとします。2001年から2007年のデータ(赤い線と呼ばれ)を使用して2007年を予測し、2008年から2009年のデータ(水色)を使用してバックキャストすることができました。行と呼びます)。Y bYfYfY_fYbYbY_b とデータポイントを、されたデータポイントY_i に結合したいとます。理想的には、平均二乗予測誤差(MSPE)を最小にするような重みを取得したいと考えています。これが不可能な場合、2つの時系列のデータポイント間の平均をどのように見つけることができますか?Y b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 簡単な例として: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 …

1
混合モデルの予測子として時間を含めることはできますか?
時間は回帰(gamを含む)の予測子として使用するべきではないと常に信じていました。なぜなら、傾向そのものを単に「説明」するからです。研究の目的が、たとえば動物の活動の変動を説明する温度などの環境パラメータを見つけることである場合、時間はどのように役立つのでしょうか。測定されていないパラメータのプロキシとして? 港湾魚類の活動データの時間のいくつかの傾向をここで見ることができます:-> GAMMを行うときに時系列のギャップを処理する方法? 私の問題は、モデルに時間を含めると(ユリウス日で測定)、他のすべてのパラメーターの90%が重要でなくなる(mgcvからのts収縮がよりスムーズになる)。私がタイムアウトを残した場合、それらのいくつかは重要です... 問題は、予測変数として時間を許可されているか(多分必要なのか?)、それとも分析をめちゃくちゃにしているのでしょうか。 事前に感謝します

2
時系列セットの比較
比較したい3つの時系列データセットがあります。彼らは約12日間の3つの別々の期間に服用されています。これらは、最終週に大学図書館で受けた平均人数、最大人数、最小人数です。時間あたりの人数が連続していないため、平均、最大、最小を実行する必要がありました(時系列の定期的なデータギャップを参照)。 データセットは次のようになります。12夜の場合、夜ごとに1つのデータポイント(平均、最大、または最小)があります。データが取得されたのは3学期で、12日間の懸念期間のみです。したがって、たとえば、2010年春、2010年秋、および2011年5月には、それぞれ12ポイントのセットがあります。以下はチャートの例です。 学期ごとにパターンがどのように変化するかを見たいので、私は学期を重ねました。ただし、リンク先のスレッドで説明したように、中間にデータがないため、学期を完全に平手打ちすることはお勧めできません。 問題は、次のとおりです。各学期の出席パターンを比較するためにどのような数学的手法を使用できますか? 私がしなければならない時系列に特別なことはありますか、それとも単純にパーセントの差をとることができますか?私の目標は、最近のライブラリの使用量が増加または減少していると言うことです。それを示すためにどのテクニックを使用すればよいかわからない。

2
縦断的データ:時系列、繰り返し測定、その他
平易な英語で: 私は重回帰またはANOVAモデルを持っていますが、各個人の応答変数は時間の曲線関数です。 右側の変数のどれが曲線の形状または垂直オフセットの大きな違いの原因であるかをどのようにして知ることができますか? これは時系列の問題、反復測定の問題、それともまったく別の問題ですか? そのようなデータを分析するためのベストプラクティスは何ですか(できればでR、他のソフトウェアを使用することもできます)? より正確に言えば: レッツは、私がモデル持っていると言うが、Y I jは、kは、実際にデータ-のシリーズです数値変数として記録された、多くの時点tで同じ個体kから収集された点。データをプロットすると、個々のy i j k tyijk=β0+β1xi+β2xj+β3xixj+ϵkyijk=β0+β1xi+β2xj+β3xixj+ϵky_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kyijkyijky_{ijk}kkktttyijktyijkty_{ijkt}垂直オフセット、形状、または周波数(循環の場合)が共変量に大きく依存する可能性がある時間の2次関数または循環関数です。共変量は時間の経過とともに変化しません。つまり、データ収集期間中、個体の体重または治療グループは一定です。 これまでのところ、私は次のRアプローチを試しました: マノバ Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...ここYTで、列は時間ポイントである行列です。この例では10個ですが、実際のデータでははるかに多くなります。 問題:これは時間を要因として扱いますが、時間点は各個人に対して正確に一致しません。さらに、サンプルサイズに対してそれらの多くが存在するため、モデルは飽和します。時間の経過に伴う応答変数の形状は無視されているようです。 混合モデル(PinheiroとBatesと同様、SとS-Plusの混合効果モデル) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ... IDデータを個人別にグループ化する要素です。この例では、応答は時間とともに循環しますが、代わりに2次項や時間の他の関数が存在する可能性があります。 問題:各時間項が必要かどうか(特に2次項の場合)、どの共変量の影響を受けるかはわかりません。 でstepAIC()、それらを選択するための良い方法は? …

1
2つの時系列をギャップと異なるタイムベースに関連付ける方法は?
私は尋ねたこの質問を StackOverflowの上の上に、そしてここでそれを尋ねることをお勧めしました。 2つの時系列の3D加速度計データがあり、タイムベースが異なり(クロックは異なる時間に開始され、サンプリング時間中にわずかにクリープがあり)、異なるサイズの多くのギャップが含まれています(別々に書き込むことに関連する遅延のため)フラッシュデバイス)。 私が使用している加速度計は、安価なGCDC X250-2です。加速度計を最高のゲインで実行しているので、データには大きなノイズフロアがあります。 時系列にはそれぞれ約200万のデータポイント(512サンプル/秒で1時間以上)があり、約500の対象となるイベントが含まれます。一般的なイベントは100〜150サンプル(それぞれ200〜300 ms)です。これらのイベントの多くは、フラッシュ書き込み中のデータ停止の影響を受けます。 したがって、データは原始的ではなく、非常にきれいでもありません。しかし、私の眼球検査では、興味のある情報が明確に含まれていることが示されています(必要に応じて、プロットを投稿できます)。 加速度計は同様の環境にありますが、適度に結合されているだけです。つまり、各加速度計からどのイベントが一致するかを目で確認できますが、ソフトウェアでこれを行うことはできません。物理的な制限により、デバイスは軸が一致しないさまざまな方向にも取り付けられますが、それらは私が作成できる限り直交に近いです。したがって、たとえば、3軸の加速度計AおよびBの場合、+ Axは-By(上下)にマップされ、+ Azは-Bx(左右)にマップされ、+ Ayは-Bz(前後)にマップされます。 。 私の最初の目標は、縦軸の衝撃イベントを関連付けることですが、最終的には、a)軸のマッピングを自動的に検出し、b)マップされたエースのアクティビティを関連付け、c)2つの加速度計の動作の違い(ねじるなど)を抽出しますまたは屈曲)。 時系列データの性質により、Pythonのnumpy.correlate()は使用できなくなります。私もR's Zooパッケージを見てきましたが、それで進んでいません。信号解析のさまざまな分野を参考にしてきましたが、進歩はありませんでした。 誰かが私にできること、または私が研究すべきアプローチについての手がかりはありますか? 2011年2月28日更新:データの例を示すいくつかのプロットをここに追加しました。

3
偽の時系列回帰について学習するためのリソース
「時系列の文脈での」「偽の回帰」およびユニットルートテストなどの関連用語は、よく聞いたことがあるが、理解できなかった。 なぜ/いつ、直感的に発生するのですか?(私はあなたの2つの時系列が共積分されたときだと思います。つまり、2つの線形結合は定常的ですが、共積分が偽りにつながる理由はわかりません。)それを避けるために何をしますか? 共積分/単位根テスト/グレンジャーの因果関係がスプリアス回帰とどのような関係があるかについての高レベルの理解を求めています(これらの3つは、スプリアス回帰に何らかの形で関連していることを覚えていますが、正確には覚えていません)。したがって、カスタム応答または詳細を参照できる参照へのリンクのいずれかがすばらしいでしょう。

2
複雑な季節性の季節性指標の計算
指数平滑法を使用して小売商品を(週ごとに)予測したい。私は今、セソナリティインデックスを計算、保存、および適用する方法に行き詰っています。 問題は、私が見つけたすべての例が一種の単純な季節性を扱っていることです。私の場合、次の問題があります。1.季節が毎年同じ週に発生するわけではなく、移動可能です。マルディグラ、貸し出し、イースターなど。2.年によって季節が変わります。たとえば、国民の休暇シーズンがあります。休日が週末に近いかどうかに応じて、顧客は町を出るか、または行かないかです。つまり、2つのシーズンがあるようです。1つは、顧客が町を離れるシーズンと、もう1つは街を離れないシーズンです。3. 2シーズン(または3シーズン)が同時に発生することがあります。たとえば、バレンタインシーズンと同時に "マルディグラ"シーズンが発生しました。 4.季節によって期間が変わることがあります。たとえば、今年の初めに「ハロウィンシーズン」が始まりました。クリスマスも別の例で、毎年早くから製品を運ぶように思えます。 ある種の「季節プロファイル」を設定する方法を見つける必要があるようです。特定のシナリオによっては、正しい季節インデックスを取得するために何らかの方法で追加されます。それは理にかなっていますか? これを行う方法に関する実用的な情報がどこにあるか知っている人はいますか? ありがとう、エドガード


3
時系列を集計してより意味のあるものにすることは有効ですか?
私からの時系列に関する別の質問。 私は、精神科病院での3年間にわたる暴力事件の毎日の記録を提供するデータセットを持っています。私の前の質問の助けを借りて、私はそれをいじっていて、今それについて少し幸せです。 私が今持っているのは、毎日のシリーズは非常にうるさいということです。それは、時々0から最大20まで、上下に大きく変動します。レスプロットと予測パッケージ(私のような初心者には強くお勧めします)を使用すると、予測から大規模な信頼区間を持つ、完全にフラットなラインが得られます。 ただし、毎週または毎月のデータを集計する方がはるかに理にかなっています。それらはシリーズの最初から下にスイープし、その後真ん中で再び増加します。レスプロットと予測パッケージはどちらも、より有意義に見えるものを生成します。 浮気みたいな感じがします。見栄えがよく、実際の妥当性がないため、集約されたバージョンを好むだけですか? または、移動平均を計算してそれを基礎として使用する方が良いでしょうか?何が受け入れられるかについて自信を持てるほど、この背後にある理論を十分に理解していないと思います

6
傾向を特定するための信号処理原理の疑わしい使用
非常にノイズの多い長期データの傾向を見つけてみることを提案しています。データは基本的に、約8か月の間に約5mm移動したものの毎週の測定値です。データは1mmの精度であり、1週間に+/- 1または2mmで定期的に変化する非常に騒々しいものです。最も近いmmまでのデータしかありません。 基本的な信号処理と高速フーリエ変換を使用して、生データからノイズを分離する予定です。基本的な前提は、データセットをミラーリングして既存のデータセットの最後に追加すると、データの全波長を作成できるため、データが高速フーリエ変換で表示され、うまくいけば、データを分離できることです。 。 これは私には少し怪しいように思えますが、これは追跡する価値のある方法ですか、それともデータセットをミラーリングして追加する方法になんらかの根本的な欠陥がありますか?ローパスフィルターの使用など、他のアプローチも検討しています。

5
時系列データ予測で検出された外れ値を修正するにはどうすればよいですか?
時系列データで異常値を見つけて検出したら、異常値を修正する方法を見つけようとしています。Rのnnetarのようないくつかのメソッドは、大きな/大きな外れ値を持つ時系列にいくつかのエラーを与えます。私はすでに欠損値を修正することができましたが、外れ値は私の予測にまだ悪影響を及ぼしています...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.