タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

5
価格をモデル化する方法は?
私はmatemathicsスタック交換サイトでこの質問をしましたが、ここで尋ねることをお勧めしました。 私は趣味のプロジェクトに取り組んでいますが、次の問題について助けが必要です。 少しのコンテキスト 機能と価格の説明を含むアイテムのコレクションがあるとしましょう。車と価格のリストを想像してください。すべての車には、エンジンサイズ、色、馬力、モデル、年などの機能のリストがあります。メーカーごとに、次のようなものがあります。 Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... さらに進むと、価格付きの車のリストが一定の時間間隔で公開されているため、過去の価格データにアクセスできます。必ずしもまったく同じ車が含まれているとは限りません。 問題 この基本情報に基づいて自動車の価格をモデル化する方法を理解したいと思います。最も重要なのは、初期リストにない自動車です。 Ford, v6, red, automatic, 130hp, 2009 上記の車については、リストにあるものとほぼ同じですが、馬力と年がわずかに異なります。この価格を設定するには、何が必要ですか? 私が探しているのは実用的でシンプルなものですが、このようなものをモデル化するより複雑なアプローチについても聞きたいです。 私が試したこと ここで私がこれまで試してきたことを示します。 1)履歴データを使用して車Xを検索します。見つからない場合、価格はありません。これはもちろん非常に限定されており、時間の経過とともに既知の車の価格を変更するために、これを時間減衰と組み合わせてのみ使用できます。 2)価格設定されたサンプル車と一緒に車の特徴の重み付けスキームを使用する。基本的に基本価格と機能があることは、何らかの要因でそれを変更するだけです。これに基づいて、車の価格が導き出されます。 前者は十分ではないことが証明され、後者は常に正しいとは限らないことが証明され、重みを使用するための最良のアプローチがなかったかもしれません。これはまた、重みを維持する上で少し重いようです。そのため、重みを取得したり、他の何かを取得するために、履歴データを何らかの方法で統計として使用する方法があると考えたのはそのためです。どこから始めればいいのかわかりません。 その他の重要な側面 私が持っているいくつかのソフトウェアプロジェクトに統合します。既存のライブラリを使用するか、自分でアルゴリズムを作成します。 新しい履歴データが入ったときの高速再計算。 このような問題にどのようにアプローチすることができますか?すべてのアイデアは大歓迎です。 事前に感謝し、あなたの提案を読むことを楽しみにしています!


4
予測モデル:統計はおそらく機械学習に勝るものはありませんか?[閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 2年前に閉店。 私は現在、統計学/計量経済学に焦点を当てたマスタープログラムをフォローしています。私のマスターでは、すべての学生が3か月の研究をしなければなりませんでした。先週、すべてのグループは研究を他のマスター学生に提示しなければなりませんでした。 ほとんどすべてのグループが、研究トピックの統計モデリングと機械学習モデリングを行い、サンプル外れの予測が行われるたびに、単純な機械学習モデルが、最後の3年間非常に懸命に取り組んだ非常に洗練された統計モデルを打ち負かしましたヶ月。みんなの統計モデルがどれほど優れていても、単純なランダムフォレストでは、ほとんど常にサンプル外エラーが少なくなりました。 これが一般に受け入れられている観測かどうか疑問に思っていましたか?サンプル外予測に関しては、単純なランダムフォレストまたは極端な勾配ブースティングモデルに勝つ方法はないということです。これらの2つの方法は、Rパッケージを使用して実装するのが非常に簡単ですが、誰もが思いついたすべての統計モデルには、かなりのスキル、知識、および見積もりの​​労力が必要です。 これについてどう思いますか?あなたが解釈を得る統計/計量経済学モデルの唯一の利点はありますか?または、単純なランダムフォレストの予測を大幅に上回るパフォーマンスを達成できなかったほど、モデルが不十分でしたか?この問題に対処する論文はありますか?

1
指数平滑化モデルで欠損データを処理する
モデルの指数平滑化ファミリのコンテキストで欠損データを処理する標準的な方法はないようです。特に、予測パッケージのetsと呼ばれるR実装は、データが欠落することなく、最も長いサブシーケンスをとるように思われます。また、Hindman et alの「Forecasting with Exponential Smoothing」という本もそうです。欠落データについてはまったく話していないようです。 ユーザーが明示的に私に尋ねた場合(そして、不足しているデータが互いに近すぎたり、正確に1シーズン離れている期間にあまり発生しない場合)、もう少しやりたいと思います。特に、私が念頭に置いているのは以下です。シミュレーション中に、欠損値が発生するたびに、現在のポイント予測をに置き換えて、ます。これにより、たとえば、パラメータポイントの最適化プロセスでデータポイントが考慮されなくなります。〜Yトンytyty_ty~ty~t\tilde y_tytyty_tεt=0εt=0\varepsilon_t = 0 パラメーターの妥当な適合が得られたら、エラーの標準偏差(平均で正常と仮定)を推定し、その分布から生成された値を使用して尤度が大きく低下しないことを確認できます。私はそのような値を(シミュレーションを使用して)予測にも使用します。000ϵtϵt\epsilon_t この方法には落とし穴がありますか?

1
継続期間の予測誤差(信頼区間)を計算する方法は?
毎月の一連のデータで将来の期間を予測する必要があることがよくあります。 時系列の次の期間のアルファでの信頼区間を計算するための数式を使用できますが、これには2番目の期間や3番目の期間などの処理方法が含まれることはありません。 予測が高信頼区間と低信頼区間でグラフ化された場合、不確実性は累積力であるため、一般にこれらの区間は平均予測に対して指数関数的に増加または減少するはずだと視覚的に想像します。 たとえば、4月= 5月10日= 6月8日= 7月11日= 13のユニット販売があり、季節性や人口データなどの他のコンテキストはなかったとします。 8月、9月、10月に(やみくもに)予測する必要があります。 どの方法を使用しますか?さらに重要なことですが、9月と10月の自信をどのように測定しますか? これは一部の専門家にとっては単純な質問かもしれないことを申し訳ありません-私は明確な答えをずっと探していましたが、これは私のようなすべてのアマチュアが理解したいものだと確信しています。

2
Rを使用した時系列分析の手順と方法
私は、今後6か月間、商品(石油、アルミニウム、錫など)の価格を予測しようとする小さなプロジェクトに取り組んでいます。予測するそのような変数は12個あり、2008年4月から2013年5月までのデータがあります。 予測についてはどうすればいいですか?私は次のことをしました: Timeseriesデータセットとしてインポートされたデータ すべての変数の季節性はトレンドによって異なる傾向があるため、乗法モデルを使用します。 加算モデルに変換する変数のログを取りました 各変数について、STLを使用してデータを分解しました Holt Winters指数平滑法、ARIMAおよびニューラルネットを使用して予測する予定です。トレーニングとテストとしてデータを分割しました(80、20)。MAE、MPE、MAPE、MASEの少ないモデルを選択する計画。 私はそれを正しくやっていますか? また、ARIMAまたはニューラルネットに渡す前に、データを平滑化する必要がありましたか?はいの場合、何を使用しますか?データは、季節性と傾向の両方を示しています。 編集: 時系列のプロットとデータの添付 Year <- c(2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2011, 2011, 2011, …

4
モデルはauto.arima()によって識別されていますか?
私はARIMAモデルを学び、適用しようとしています。私はPankratzによってARIMAに優れた文章を読んでてきた- 予測を単変量ボックスで-ジェンキンスモデル:概念と事例。本文では、著者は特にARIMAモデルを選択する際の節約の原則を強調しています。 Rパッケージ予測のauto.arima()関数で遊び始めました。これが私がやったことです。ARIMAをシミュレートしてから適用しました。以下に2つの例を示します。両方の例でわかるように、多くの人が非慈善的と考えるモデルを明確に特定しました。特に例2では、実際にはARIMA(1,0,1)で十分かつpar約であるにもかかわらず、ARIMA(3,0,3)が識別されています。auto.arima()auto.arima()auto.arima() 以下は私の質問です。提案や推奨事項に感謝します。 次のような自動アルゴリズムを使用して特定されたモデルをいつ使用/変更するかについてのガイダンスはありますauto.arima()か? auto.arima()モデルを識別するためにAIC(これが使用していると思う)を使用するだけで落とし穴はありますか? 節約的な自動アルゴリズムを構築できますか? ちなみに、私はauto.arima()ちょうど例として使用しました。これは、自動アルゴリズムに適用されます。 以下は例1です。 set.seed(182) y <- arima.sim(n=500,list(ar=0.2,ma=0.6),mean = 10) auto.arima(y) qa <- arima(y,order=c(1,0,1)) qa 以下はからの結果ですauto.arima()。すべての係数は重要ではないことに注意してください。すなわち、ttt値<2。 ARIMA(1,0,2) with non-zero mean Coefficients: ar1 ma1 ma2 intercept 0.5395 0.2109 -0.3385 19.9850 s.e. 0.4062 0.4160 0.3049 0.0878 sigma^2 estimated as 1.076: log likelihood=-728.14 AIC=1466.28 AICc=1466.41 BIC=1487.36 以下は、arima()注文ARIMA(1,0,1)で定期的に実行した結果です。 Series: …

1
時系列相互検証を使用した予測誤差の計算
時系列の予測モデルがあり、そのサンプル外の予測エラーを計算したい。現時点で私がフォローしている戦略は、Rob Hyndmanのブログ(ページの下部近く)で次のように提案されています(時系列およびサイズトレーニングセットを想定)y1、… 、yny1、…、yny_1,\dots,y_nkkk モデルをデータに合わせ、次の観測の予測とします。、Y T + Kyt、… 、yt + k − 1yt、…、yt+k−1y_t,\dots,y_{t+k-1}y^t + ky^t+k\hat{y}_{t+k} として予測誤差を計算します。et= y^t + k− yt + ket=y^t+k−yt+ke_{t} = \hat{y}_{t+k} - y_{t+k} t = 1、\ dots、nkについて繰り返しますt = 1 、… 、n − kt=1、…、n−kt=1,\dots,n-k 平均平方誤差をMSE = 1n − k∑n − kt = 1e2tMSE=1n−k∑t=1n−ket2\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2 私の質問は、トレーニングセットが重複しているため、相関についてどれだけ心配する必要があるかです。特に、次の値だけでなく、次のmmm値も予測したいので、予測y^t + k、… 、y^t + …

2
時空間予報誤差の探索的分析
データ:私は最近、風力発電の生産予測誤差の時空間フィールドの確率的特性の分析に取り組みました。正式には、プロセス (時間的に二回インデックスさTとH)と(空間に一度のpで)Hは、(周りに何か等しいルックアヘッド・回数であること24、規則的にサンプリングし、)Tは、数あること「予測時刻」(つまり、予測が発行される時刻、私の場合は約30000、定期的にサンプリング)、およびnは空間位置の数(グリッドなし、私の場合は約300)。これは天気関連のプロセスであるため、使用できる天気予報、分析、気象測定もたくさんあります。(εpt + h | t)t = 1 … 、T;h = 1 、… 、H、p = p1、… 、pn(ϵt+h|tp)t=1…、T;h=1、…、H、p=p1、…、pn \left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}ttthhhpppHHH242424TTTnnn 質問:このタイプのデータに対して実行する探索分析を説明して、プロセスの相互依存構造(線形ではない場合があります)の性質を理解し、プロセスの詳細なモデリングを提案できますか?

2
時系列分析を使用して暴力的な行動を分析/予測する
これはちょっとした質問ですが、私はその答えに真剣に興味を持っています。私は精神病院で働いており、その病棟での暴力のレベルに関して各病棟で毎日収集された3年間のデータを持っています。 明らかに、これらのデータに適合するモデルは時系列モデルです。スコアをより正常にするために、スコアを変える必要がありました。ARMAモデルを差分データで近似します。最適なのは、遅延2で1度の差分と1次の自己相関があるモデルだと思います。 私の質問は、このモデルをいったい何のために使用できるのかということです。時系列は、うさぎの個体数と原油価格に関する教科書では常に非常に有用に思えますが、今では自分でやった結果は非常に抽象的で完全に不透明に見えます。差のあるスコアは2ラグで互いに相関していますが、深刻な問題が発生した2日後にすべての人が高度に警戒するようにアドバイスすることはできません。 または私はできますか?

1
モデルが同じデータセットに基づいている限り、AIC値を比較できますか?
Rob Hyndmanの予測パッケージを使用して、Rで予測を行っています。パッケージに属する論文はここで見つけることができます。 この論文では、自動予測アルゴリズムについて説明した後、著者は同じデータセットにアルゴリズムを実装しています。ただし、指数平滑法とARIMAモデルの両方を推定した後、私は理解できないステートメントを作成します(17ページ): 情報の基準は比較できないことに注意してください。 モデルの選択にAICを使用する利点は、同じデータセットを使用して推定される限り、異なるモデルのAIC値を比較できることだと思いました。これは間違っていますか? いわゆる赤池重みを使用して異なるモデルクラス(指数平滑法やARIMAなど)からの予測を結合することを計画していたため、この問題は私にとって特に興味深いです(赤池重みについてはBurnham and Anderson、2002を参照) 参照資料 バーナム、KP、およびアンダーソン、DR(2002)。モデル選択とマルチモデル推論:実用的な情報理論的アプローチ。スプリンガー出版。

3
アンサンブル時系列モデル
時系列予測を自動化する必要がありますが、それらの系列の機能(季節性、傾向、ノイズなど)を事前に知りません。 私の目的は、各シリーズに最適なモデルを取得することではなく、かなり悪いモデルを回避することです。言い換えれば、小さなエラーを毎回取得することは問題ではありませんが、大きなエラーを時々取得することは問題です。 異なる手法で計算されたモデルを組み合わせることで実現できると思いました。 つまり、ARIMAは特定のシリーズに最適なアプローチですが、別のシリーズには最適でない場合があります。指数平滑法についても同様です。 ただし、各手法の1つのモデルを組み合わせると、1つのモデルがそれほど良くなくても、もう1つのモデルが推定値を実際の値に近づけます。 ARIMAが長期の正常に動作するシリーズに適していることはよく知られていますが、指数平滑法は短期のノイズの多いシリーズで際立ちます。 私のアイデアは、より堅牢な予測を得るために、両方の手法から生成されたモデルを組み合わせることです、それは理にかなっていますか? これらのモデルを組み合わせるには多くの方法があるかもしれません。 これが良いアプローチである場合、それらをどのように組み合わせる必要がありますか? 予測の単純な平均はオプションですが、モデルの適切な尺度に従って平均に重みを付けると、より良い予測が得られる可能性があります。 モデルを組み合わせるときの分散の扱いは何ですか?

1
予測における休日の影響を考慮する方法
週ごとの季節性を持つかなり予測可能な毎日の時系列があります。休日がない場合、かなり正確であると思われる予測(クロスバリデーションによって確認された)を思いつくことができます。ただし、休日がある場合、次の問題があります。 過去のすべての休日が0であっても、予測では休日に0以外の数値が表示されます。これは実際には主要な問題ではありません。問題は... 休日に発生しない処理は、休日の翌日に「波及」するため、これらの異常値は短期的な革新的であるように見えるため、単純なダミー変数はそれをカットしません。週ごとの季節性がない場合は、休日の5日前後にわたって休日に未処理のデータを配布するための見積もりを考え出すことができます(休日のリード/ラグの影響を反映する変数の作成方法/時系列分析におけるカレンダー効果?)ただし、「スピルオーバー」の分布は、休日が発生する曜日、および休日がクリスマスまたは感謝祭であるかどうかに依存します。クリスマスまたは感謝祭では、年の残りよりも低いレートで注文が行われます。 クロスバリデーションのいくつかのスナップショットを以下に示します。これらのスナップショットは、異なる曜日に表示される休日の予測結果(青)と実際の結果(赤)を示しています。 また、クリスマスの影響はそれが属する曜日に依存するのではないかと心配しています。また、6年ほどの履歴データしかありません。 予測の文脈でこれらのタイプの革新的な外れ値に対処する方法についての提案はありますか?(残念ながら、データを共有することはできません)


4
バイナリ時系列の予測
車が動いていないときは1、車が動いているときは0のバイナリ時系列があります。36時間先までの時間範囲と1時間ごとの予測を行います。 私の最初のアプローチは、次の入力を使用してNaive Bayesを使用することでした:t-24(毎日の季節)、t-48(毎週の季節)、時間。ただし、結果はあまり良くありません。 この問題に対してどの記事またはソフトウェアをお勧めしますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.