タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

3
機械学習の問題が絶望的であることを知る方法は?
標準的な機械学習シナリオを想像してください: 大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか? もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか? 免責事項:この質問はこの質問に触発され ました。いつモデルを探すのをやめなければなりませんか?それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

1
ニューラルネットワークを時系列予測に適用する方法
私は機械学習が初めてであり、ニューラルネットワークを時系列予測に適用する方法を模索しています。クエリに関連するリソースを見つけましたが、まだ少し失われているようです。あまり詳細を述べない基本的な説明が役立つと思います。 数年にわたって毎月の価格の値があり、新しい価格の値を予測したいとします。過去数か月間の価格のリストを取得し、K-Nearest-Neighborを使用して過去の同様の傾向を見つけようとしました。変化率や過去のトレンドのその他の特性を使用して、新しい価格を試して予測することができました。この同じ問題にニューラルネットワークを適用する方法は、私が見つけようとしていることです。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

10
外挿の何が問題になっていますか?
外挿が悪い考えであった理由についての学部生の聴聞会として統計コースに座っていたことを覚えています。さらに、これについてコメントするオンラインのさまざまな情報源があります。ここにもそれについての言及があります。 誰かが外挿が悪い考えである理由を理解するのを助けることができますか?もしそうなら、どのように予測手法が統計的に無効ではないのですか?

3
AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC —それらを同じ意味で使用できますか?
p。彼のPRNNブライアンリプリーの34人は、「AICは赤池(1974)によって「情報基準」と命名されましたが、Aは赤池を表すと一般に信じられているようです」とコメントしています。実際、AIC統計を導入する際、赤池(1974、p.719)は次のように説明しています。 "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". この引用を1974年の予測として考えると、赤池(1977、1978)とシュワルツ(1978)によって、わずか4年で2種類のBIC統計(ベイジアンIC)が提案されたことに注目することは興味深いです。Spiegelhalterらがかかった。(2002)DIC(Deviance IC)を思い付くまでにはるかに長い。CIC基準の出現は赤池(1974年)によって予測されていませんでしたが、それが決して考慮されなかったと信じることは単純です。2005年にCarlos C. Rodriguezによって提案されました(R. TibshiraniとK. KnightのCIC(共分散インフレーション基準)は異なることに注意してください)。 EIC(経験的IC)が2003年頃にモナッシュ大学の人々によって提案されたことを知っていました。私は、Focused Information Criterion(FIC)を発見しました。一部の書籍では、HannanおよびQuinn ICをHICと呼んでいます。たとえば、これを参照してください)。GIC(Generalized IC)が必要であることは知っていますが、情報投資基準(IIC)を発見しました。NIC、TICなどがあります。 私はおそらくアルファベットの残りをカバーできると思うので、AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC、...のシーケンスがどこで停止するか、アルファベットの文字が何であるかを尋ねていません使用されていないか、少なくとも2回使用されていない(たとえば、EICのEは、ExtendedまたはEmpiricalを表します)。私の質問はもっと簡単で、もっと実用的になることを願っています。これらの統計を相互に交換して使用し、それらが導き出された特定の仮定、それらが適用されるはずの特定の状況などを無視できますか? この質問の一部は、Burnham&Anderson(2001)が次のように書いていることによるものです。 ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

2
MEANがARIMAを上回ることは珍しいですか?
最近、さまざまな予測方法(MEAN、RWF、ETS、ARIMA、MLP)を適用しましたが、MEANが驚くほどうまくいったことがわかりました。(MEAN:将来の予測はすべて、観測値の算術平均に等しいと予測されます。)MEANは、使用した3つのシリーズでARIMAよりも優れていました。 私が知りたいのは、これが異常かどうかです。これは、私が使用している時系列が奇妙だということですか?または、これは何か間違ったことを設定したことを示していますか?

4
予測と予測の違いは?
予測と予測の間にはどのような違いと関係があるのだろうか?特に時系列と回帰で? たとえば、私はそれを修正していますか: 時系列では、予測とは、時系列の過去の値から将来の値を推定することを意味するようです。 回帰では、予測は、与えられたデータに対して将来、現在、または過去の値を推定することを意味するようです。 よろしくお願いします!

6
短い時系列に最適な方法
短い時系列のモデリングに関連する質問があります。それらをモデル化するかどうかは問題ではなく、どのようにモデル化するかです。(非常に)短い時系列(長さ)をモデル化するには、どのような方法をお勧めしますか?「最高」とは、ここでは最も堅牢なものを意味します。つまり、観測数が限られているという事実によるエラーが最も起こりにくいものです。短いシリーズでは、単一の観測が予測に影響を与える可能性があるため、この方法は、予測に関連するエラーと可能性のある変動の慎重な推定値を提供する必要があります。私は一般に単変量時系列に興味がありますが、他の方法について知ることも興味深いでしょう。T≤20T≤20T \leq 20

1
Rのtsoutliersパッケージを使用した時系列(LS / AO / TC)の外れ値の検出。方程式形式で外れ値を表す方法
コメント: まず、1993年にオープンソースソフトウェア Journal of the American Statistical Associationに発表されたChenとLiuの時系列外れ値検出を実装する新しいtsoutliersパッケージの作成者に感謝します。RRR このパッケージは、時系列データで5種類の外れ値を繰り返し検出します。 加算的外れ値(AO) イノベーションの外れ値(IO) レベルシフト(LS) 一時的な変更(TC) 季節的レベルシフト(SLS) さらに素晴らしいのは、このパッケージが予測パッケージからauto.arimaを実装しているため、異常値の検出がシームレスに行われることです。また、このパッケージは、時系列データをよりよく理解するためのすてきなプロットを生成します。 以下は私の質問です。 このパッケージを使用していくつかの例を実行してみましたが、うまくいきました。加算的な外れ値とレベルシフトは直感的です。ただし、一時的な変更の外れ値とイノベーションの外れ値の処理に関して、理解できない2つの質問がありました。 一時的な変更の外れ値の例: 次の例を考えてみましょう。 library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) プログラムは、次の場所でレベルシフトと一時的な変更を正しく検出します。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下はプロットと私の質問です。 方程式の形式で一時的な変更を書き込む方法は?(レベルシフトは、1935 …

9
なぜベクトル誤差補正モデルを使用するのですか?
Vector Error Correction Model(VECM)について混乱しています。 技術的背景: VECMは、統合された多変量時系列にベクトル自己回帰モデル(VAR)を適用する可能性を提供します。教科書では、VARを統合時系列に適用する際にいくつかの問題を挙げていますが、その中で最も重要なのは、いわゆるスプリアス回帰です(t統計は非常に重要であり、変数間に関係はありませんがR ^ 2が高い)。 VECMを推定するプロセスは、おおよそ次の3つのステップで構成されていますが、混乱を招く1つは最初のステップです。 統合された多変量時系列のVARモデルの仕様と推定 尤度比検定を計算して、共和分関係の数を決定します 共和分数を決定した後、VECMを推定します 最初のステップでは、適切な数のラグを使用してVARモデルを推定し(通常の適合度基準を使用)、残差がモデルの仮定に対応しているかどうか、つまり、シリアル相関と不均一分散がなく、残差が正規分布していることを確認します。そのため、VARモデルが多変量時系列を適切に記述しているかどうかを確認し、記述している場合にのみ次のステップに進みます。 そして今私の質問に:VARモデルがデータをうまく記述しているのなら、なぜVECMが必要なのですか?私の目標が予測を生成することである場合、VARを推定して仮定をチェックするだけでは十分ではありませんか?また、それらが満たされている場合は、このモデルを使用しますか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
不適切なスコアリングルールを使用するのが適切な場合
マークル&スタイバーズ(2013)執筆: 適切なスコアリングルールを正式に定義するには、真の成功確率pを持つベルヌーイ試行dの確率的予測をとします。適切なスコアリングルールは、f = pの場合に期待値が最小化されるメトリックです。fffdddpppf= pf=pf = p これは良いことだと思います。なぜなら、私たちは、予測者が彼らの本当の信念を正直に反映する予測を生成することを奨励したいからです。 不適切なスコアリングルールを使用することが適切である実際の例はありますか? Reference Merkle、EC、およびSteyvers、M。(2013)。厳密に適切なスコアリングルールの選択。意思決定分析、10(4)、292-304

4
ARIMAモデルをあてはめる前に時系列をログ変換するタイミング
以前は予測プロを使用して単変量時系列を予測していましたが、ワークフローをRに切り替えています.Rの予測パッケージには多くの便利な機能が含まれていますが、自動化を実行する前に行わないデータ変換が1つあります.arima()。いくつかのケースでは、予測プロは予測を行う前に変換データを記録することを決定しますが、その理由はまだわかりません。 私の質問は次のとおりです:ARIMAメソッドを試す前に、時系列をいつログ変換する必要がありますか? /編集:回答を読んだ後、次のようなものを使用します。xは私の時系列です。 library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } これは理にかなっていますか?

1
ネイト・シルバーが黄土について言ったことの説明
私が最近尋ねた質問で、私はそれが黄土で外挿するのは大きな「ノー」だと言われました。しかし、Nate SilverのFiveThirtyEight.comに関する最新の記事では、選挙の予測に黄土を使用することについて議論しました。 彼はレスで積極的な予測と保守的な予測の詳細を議論していましたが、私はレスで将来の予測を行うことの妥当性について興味がありますか? また、私はこの議論と、黄土と同様の利点があるかもしれない他の選択肢があることに興味があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.