統計とビッグデータ forecasting

3

意図的にモデルをオーバーフィットすることは理にかなっていますか？データがトレーニングデータに対してそれほど変わらないことがわかっているユースケースがあるとします。私はここで交通予測について考えています。交通状況は一定のパターンのセットに従います朝の通勤夜の活動等々。これらのパターンは、自動車ユーザーの急増や道路インフラの大きな変化がない限り、あまり変わりません。この場合、将来のパターンとデータが非常に類似すると想定して、モデルが現在のデータで学習したパターンにできるだけ偏るようにしたいと思います。

8 machine-learning time-series forecasting prediction overfitting

2

ロングホライズン予測可能性の神話

私は最近、将来の株式市場のリターンの予測についての興味深い記事に出くわしました。著者は以下のグラフを提示し、0.913のR ^ 2を引用しています。これは著者の方法を私がこれまでにこの主題で見たことよりはるかに優れたものにするでしょう（ほとんどが株式市場は予測不可能であると主張します）。著者は彼の方法を非常に詳細に説明し、結果を裏付けるための実質的な理論を提供します。次に、このホワイトペーパーを参照する2番目の批評的な記事「ロングホライズン予測可能性の神話」を読みました。どうやら人々は何十年もの間この幻想に陥っています。残念ながら、私はその論文を本当に理解していません。これは私に次の質問を導きます：トレーニングとモデル検証の両方に同じデータセットを使用することにより、長期予測の誤った信頼が生じますか？トレーニングと検証のデータが別々の重複しない期間から取得された場合、問題は解消されますか？トレーニングセットの検証とは別に、なぜこの問題は長い期間にわたってより顕著になるのですか？一般的に、長期予測を行う必要があるモデルをトレーニングする場合、この問題をどのようにして克服できますか？

8 machine-learning time-series forecasting predictive-models

1

確率的予測精度を測定する方法は？

私が次のような確率的予測をたくさんするとします： Q1で売上成長率が10〜15％になる確率は70％、売上成長率が15％以上になる確率は10％、売上成長率が10％未満になる確率は20％実際のデータを踏まえて、私の正確性を測定または追跡するための最良の方法は何ですか？ブライアースコア？また、さまざまな種類の予測のブライアスコアを平均化できますか？（たとえば、「雨の可能性は80％である」という予測の目障りなスコアを見つけ、それを売上成長予測と平均化します）

8 forecasting scoring-rules

1

ポアソン、精度、予測間隔の予測

Poissonグループ1-26 months of dataに応じて、グループ分けされたのデータを予測しようとしています。プールされたデータの65% has a value of 0や25% a value of 1。トレンドや季節性を見つけることができなかったので、いくつかの異なるステーショナリーモデルをテストし始めました。Moving average (3)、Moving Average (6)、Simple Exponential Smoothing、NaïveとSimple Mean。私は1-6カ月先に予想して使用する必要があるMAD、MSEとRMSEモデルの精度をテストします。最も正確なのと、平均シンプルであるように見えますRMSE of 1とMAD of 0,638。これは本当に高いと思いますが、どうすればよいのかわかりません。私が考えていなかった予測方法がありますか？私は何かを見落としているか？私は予測区間については見つけることができた唯一のものだったF+tsとF-tsしてF、予想通りtとt分布としてalfa (n-2)およびs標準偏差など。本当に信頼できるソースだとは思わないが、他に何も見つからなかったため、これらの予測間隔の設定方法がわからない。この方法は正しいですか？使用するRがありません。自分でやる必要があります。

8 time-series forecasting count-data prediction-interval intermittent-time-series

1

Arimax予測：予測パッケージの使用

パッケージのarimax関数は、TSA私の知る限りR、介入モデルの伝達関数に適合する唯一のパッケージです。予測機能はありませんが、必要な場合があります。優れたforecastパッケージを活用して、この問題の次の回避策はありますか？予測間隔は正しいですか？私の例では、コンポーネントのstdエラーは「近い」ものです。予測パッケージのアリマ関数を使用して、介入前のノイズシリーズを決定し、外れ値の調整を追加します。同じモデルをフィットarimaxさせますが、伝達関数を追加します伝達関数のarimax近似値（からの係数）を取得し、それらをxreg inとして追加しますarima。と予測 arima library(TSA) library(forecast) data(airmiles) air.m1<-arimax(log(airmiles),order=c(0,0,1), xtransf=data.frame(I911=1*(seq(airmiles)==69)), transfer=list(c(1,0)) ) air.m1 出力： Coefficients: ma1 intercept I911-AR1 I911-MA0 0.5197 17.5172 0.5521 -0.4937 s.e. 0.0798 0.0165 0.2273 0.1103 sigma^2 estimated as 0.01223: log likelihood=88.33 AIC=-168.65 AICc=-168.09 BIC=-155.02 これはフィルターであり、データより5期間延長されています tf<-filter(1*(seq(1:(length(airmiles)+5))==69),filter=0.5521330,method='recursive',side=1)*(-0.4936508) forecast.arima<-Arima(log(airmiles),order=c(0,0,1),xreg=tf[1:(length(tf)-5)]) forecast.arima 出力： Coefficients: ma1 intercept tf[1:(length(tf) - …

8 r time-series forecasting arima intervention-analysis

2

セキュリティリターン+ ARIMA / GARCHの質問を予測するために使用できる計量経済モデル

私は学部の論文を書こうとしています。そこでは、特定の金融時系列で特定の計量経済モデルの予測力をテストします。私はこれをどうやってやるべきかについていくつかのアドバイスが必要です。状況を説明するために、私は主に計量経済学を自己学習しています。私がこのテーマに取り組んだ唯一のコースは、時系列モデルを掘り下げる前に止まったので、私はこのテーマの専門家ではありません。残念なことに、私は最近ARIMAモデルが株価（およびその他のセキュリティ）のリターンを予測するのが非常に悪いことを読みました。私の学校の経済学部の教授もこれを確認しました。この間ずっと、それらがおそらくいくつかの財務時系列の予測にリモートで役立つことを願っていました...私が見ることができる他のモデルはありますか？私の目標は、RまたはMATLABで時系列の計量経済モデリングを学習し、うまくいけば統計的に有意な予測結果を見つけることです。また、あなたが注目する特定の市場（エネルギー、レート、株式）はありますか？最後に、GARCHはボラティリティの予測にのみ使用されますか？私が言及した教授は、株価のリターンをモデル化するために、GARCHまたはARIMA-GARCHモデルに目を向けるべきだと示唆しているようです。実際の返品にも使えるかもしれないと思われる論文をいくつか読んだのですが... ARIMA-GARCHモデルのARおよびMAコンポーネントは、ARMAモデルのコンポーネントと異なりますか？私が漠然と理解したことから、ARIMAとGARCHは2つの完全に別のものです（前者は実際の時系列を予測するために使用され、もう一方はその変動性を予測するために使用されます）。質問が多すぎないことを願っていますが、どこに向かえばよいのかわからないので、私はこれまでずっと自分で研究してきました。どうもありがとう！

8 time-series forecasting econometrics arima garch

1

時系列予測の問題

Rでの時系列のモデリングについて質問を受けました。私のデータは次のマトリックスで構成されています。 1 0.03333333 0.01111111 0.9555556 2 0.03810624 0.02309469 0.9387991 3 0.00000000 0.03846154 0.9615385 4 0.03776683 0.03119869 0.9310345 5 0.06606607 0.01201201 0.9219219 6 0.03900325 0.02058505 0.9404117 7 0.03125000 0.01562500 0.9531250 8 0.00000000 0.00000000 1.0000000 9 0.04927885 0.01802885 0.9326923 10 0.06106870 0.02290076 0.9160305 11 0.03846154 0.00000000 0.9615385 12 0.00000000 0.00000000 1.0000000 13 …

8 r time-series forecasting compositional-data

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

予測方法を比較する方法は？

断続的なデータがいくつかあります。これらのデータに基づいて、いくつかの予測方法（指数平滑法、移動平均、Croston、およびSyntetos-Boylan）を比較し、CrostonまたはSyntetos Boylanが断続的なデータに関してSESまたはMAより優れているかどうかを判断します。比較したいメジャーは、通常のMAPE、MSEメジャーの代わりに、Kourentzes（2014）によって提案された平均絶対レートまたは平均二乗レートであり、\ alpha $平滑化パラメーターのすべてのレベルで、需要間インターバルに使用される平滑化パラメーターを想定しています。クロストンとシンテトスのボイランの需要サイズは同じです。私の質問は次のとおりです。1。すべてのデータについて、平滑化方法ごとに最適なアルファの値が異なる可能性があることを考慮すると、メソッドのアルファの値はMARまたはMSRを最小化し、他のメソッドではそうしない場合があります、その1つの方法は、アルファのその値について他の方法よりも優れている場合があり、他の方法ではそうでない場合があります。この種の問題をどのように解決しますか？私の現在の解決策は、2つの異なる方法間でアルファのすべてのレベルのMARの2つのグラフを比較することです。私の期待は、プロファイル分析が行われたときに、2つの異なる方法が異なる特性を示すことです。実験デザインのようなより良い解決策はありますか？私は実験の設計方法にかなり混乱しています。観察はそれらのいくつかのデータであり、レベルは平滑化パラメーターアルファであり、治療はそれらの方法です。値はMARです。それは実行可能ですか？そして論理的に行うには？仮説は、アルファのすべてのレベルで各治療法に違いがあるかどうかです。線形性の仮定がここで満たされているとは思えません。編集：とにかく、私はこれが研究課題として実行可能であるとは思いません。エラーメジャーがスケールに依存しているという事実（私のスケール依存の定義が正しい場合）は、予測のさまざまな方法を比較する方法がないため、この問題の研究に非常に問題を引き起こしました。

8 forecasting method-comparison crostons-method intermittent-time-series

4

回帰モデルの選択

2つの変数を使用して単純な線形最小二乗回帰を行うための適切なモデルを、どのようにして客観的に（「アルゴリズム的に」読み取る）選択できますか？たとえば、データが2次傾向を示しているように見え、データに非常によく適合する放物線が生成されたとします。これを回帰にすることをどのように正当化しますか？または、より良いモデルが存在する可能性を排除するにはどうすればよいですか？私が本当に心配しているのはこれです。データセット（点の補間）に完全に適合するまで、多項式の項を追加し続けるだけで、エラーはまったく発生しません。しかし、「モデル」が実際に適切であると考える理由がないため、これは予測または外挿に関しては役に立たないでしょう。では、正確さと直感的な魅力のニーズのバランスをどのように取るのでしょうか？（また、これが以前に尋ねられたことがある場合は、私に警告してください。そうであったと思いますが、何も見つかりませんでした。）

8 regression forecasting model-selection prediction

1

不定期時系列の予測（Rあり）

等距離の時系列を予測する方法はいくつかあります（例：Holt-Winters、ARIMAなど）。しかし、私は現在、次の不規則な間隔のデータセットに取り組んでいます。これには、年間のデータポイントの量が異なり、それらのポイント間に定期的な時間間隔はありません。プロット：サンプルデータ： structure(list(date = structure(c(664239600, 665449200, 666658800, 670888800, 672184800, 673394400, 674517600, 675727200, 676936800, 678146400, 679356000, 680565600, 682984800, 684194400, 685404000, 686613600, 687823200, 689036400, 690246000, 691455600, 692665200, 695084400, 696294000, 697503600, 698713200, 699922800, 701132400, 703548000, 705967200, 707176800, 708472800, 709682400, 710805600, 712015200, 713224800, 714434400, 715644000, 716853600, 718063200, 719272800, 720486000, 721695600, 722905200, 724114800, 726534000, …

8 r time-series forecasting unevenly-spaced-time-series

3

RでArimaモデルを近似するときのoptimのエラー

Rの統計パッケージのarimaメソッドを、時系列の17376要素で使用しています。私の目標は、AIC基準の値を取得することです。最初のテストでこれを観察しました。 ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method = "CSS", optim.method = "BFGS",) > ts$coef ar1 ar2 ma1 sar1 sar2 sma1 0.8883730 -0.0906352 -0.9697230 1.2047580 -0.2154847 -0.7744656 > ts$aic [1] NA ご覧のとおり、AICは定義されていません。AICについて、Rの「ヘルプ」は「ML」でのみ使用できると述べました。しかし、それは起こります： > ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method …

8 r time-series forecasting arima

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

auto.arimaが季節パターンを認識しない

私は毎日の気象データセットを持っていますが、これは当然のことながら、非常に強い季節効果を持っています。予測パッケージの関数auto.arimaを使用して、このデータセットにARIMAモデルを適合させました。驚いたことに、この関数は季節性操作、季節性差異、季節性arまたはmaコンポーネントを適用しません。推定したモデルは次のとおりです。 library(forecast) data<-ts(data,frequency=365) auto.arima(Berlin) Series: data ARIMA(3,0,1) with non-zero mean Coefficients: ar1 ar2 ar3 ma1 intercept 1.7722 -0.9166 0.1412 -0.8487 283.0378 s.e. 0.0260 0.0326 0.0177 0.0214 1.7990 sigma^2 estimated as 5.56: log likelihood=-8313.74 AIC=16639.49 AICc=16639.51 BIC=16676.7 また、このモデルを使用した予測は、本当に満足できるものではありません。これが予測のプロットです。誰かが私にここで何が間違っているのかヒントを教えてくれますか？

8 r time-series forecasting arima arma

1

相関の高い時系列の予測

AR、MA、ARMAなどのさまざまなモデルを使用した時系列予測では、通常、時間の変化におけるデータのモデリングに焦点を当てます。しかし、ピアソンの相関係数が高度に相関していることを示す2つの時系列がある場合、それらの依存関係と予測値をモデル化して他のモデルから予測することは可能ですか？たとえば、あるシリーズが他のシリーズと線形関係にある場合、それは可能であるように見えます。しかし、この種の依存関係分析の一般的な方法はありますか？

8 time-series correlation forecasting var

タグ付けされた質問 「forecasting」

タグ付けされた質問「forecasting」