タグ付けされた質問 「prediction-interval」

予測間隔(また予測間隔)は、事前に指定された確率で確率変数の将来(またはその他の場合は不明ですが、*観測可能*)な値をカバーする間隔です。

2
方法:ブートストラップによる線形回帰の予測間隔
使い方がわからない ブートストラップをして線形回帰モデルの予測間隔を計算。誰かがステップバイステップの手順を概説できますか?私はグーグルで検索しましたが、何も本当に意味がありません。 モデルパラメータの信頼区間を計算するためにブートストラップを使用する方法を理解しています。

1
二項確率変数の予測区間
二項確率変数の予測区間の式(近似または正確)は何ですか? と仮定すると、(から描画)が観測されます。知られています。Y Y NY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn 私たちの目標は、からの新しいドローの95%の予測間隔を取得することです。YYY ポイント推定値は、ここでです。の信頼区間は簡単ですが、予測区間の公式は見つかりません。(ではなく)を知っていた場合、95%の予測区間は、二項の分位数を見つけることだけを含みます。私が見落としている明らかなものはありますか?、P = Ynp^np^n\hat{p}P YP Pp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

2
非線形回帰の信頼区間と予測区間の形状
非線形回帰の信頼帯と予測帯は、回帰線の周りで対称的であると想定されていますか?つまり、線形回帰のバンドの場合のように、砂時計の形をとっていません。何故ですか? 問題のモデルは次のとおりです 図は次のとおりです。 F(x )= ⎛⎝⎜⎜A − D1 + (xC)B⎞⎠⎟⎟+ DF(バツ)=(A−D1+(バツC)B)+D F(x) = \left(\frac{A-D}{1 + \left(\frac x C\right)^B}\right) + D そして、これが方程式です:

1
GBM予測間隔を見つける方法
キャレットパッケージを使用してGBMモデルを操作し、予測データの予測間隔を解決する方法を探しています。広範囲に検索しましたが、ランダムフォレストの予測間隔を見つけるためのいくつかのアイデアを思いつきました。ヘルプ/ Rコードは大歓迎です!

2
予測間隔を使用して確率的ステートメントを作成できますか?
信頼区間と予測区間の解釈に関するサイト上の多くの優れた議論を読みましたが、1つの概念はまだ少し不可解です: OLSフレームワークを考えてみると、近似モデルが得られました。が与えられ、その応答を予測するように求められます。私たちは、計算のx ^ {* T} \帽子\ベータ版をボーナスとして、我々はまた、私たちの予測を中心に95%予測区間を提供し、そして、ラ・線形モデルで予測制限の式を得ます。この予測間隔をPIと呼びましょう。y^=Xβ^y^=Xβ^\hat y = X\hat\betax∗x∗x^*x∗Tβ^x∗Tβ^x^{*T}\hat\beta さて、PIの正しい解釈は次のうちどれですか(どちらでもありません)? 用x∗x∗x^*特に、y(x∗)y(x∗)y(x^*)、95%の確率でPI内にあります。 多数のxが与えられた場合xxx、PIを計算するこの手順は、95%の時間で真の応答をカバーします。 線形回帰予測間隔の @gungの文言から、前者は正しいように思えます(非常によく誤解される可能性があります)。それが正しいかどう私たちがしているので、それは予測の実現確率変数の対推定パラメータを? (編集)ボーナスの質問:真のが何であるか、つまりデータを生成するプロセスを知っていると仮定すると、見ているだけで、特定の予測に関する確率について話すことができるでしょうか?ββ\betaϵϵ\epsilon これに対する私の最新の試み:(概念的に非常に大まかに言って)予測区間を2つの部分に分解できます。エラー項の範囲。(B)真の予測平均を知っていることを条件に、確率的ステートメントを作成できますが、全体として、予測間隔は、予測値の周りの頻度CIとしてのみ扱うことができます。これはいくらか正しいですか?

1
予測間隔=信頼できる間隔?
予測間隔と信頼できる間隔が同じことを評価するかどうか疑問に思っています。 たとえば、線形回帰の場合、近似値の予測区間を推定するとき、値が下がると予想される区間の限界を推定します。信頼区間とは逆に、平均値などの分布パラメーターに焦点を合わせるのではなく、説明変数が特定のX値に対して取ることができる値に焦点を合わせます(と想定)。Y = +のB 。バツ(1 - α )%(1−α)%(1-\alpha)\% Y= a + b 。バツ Y=a+b。バツ\ Y = a + b.X ベイジアンフレームワーク内の特定の値の近似値を事後確率分布から推定する場合、信頼できる区間を推定できます。この間隔は、近似値について同じ情報を提供しますか?バツバツX

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
予測と許容範囲
予測と許容範囲についていくつか質問があります。 最初に許容範囲の定義について合意しましょう。信頼レベル(90%など)、取得する母集団の割合(99%など)、サンプルサイズ(20など)が与えられます。確率分布は既知であり、通常便宜上。ここで、上記の3つの数値(90%、99%、20)と、基礎となる分布が正規であることを前提として、許容誤差の数値計算できます。試料所定の(X 1、xは2、... 、X 20)との平均ˉ Xと標準偏差S、公差間隔であるˉ X ± K Skkk(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})x¯x¯\bar{x}sssx¯±ksx¯±ks\bar{x}\pm ks。この公差は間隔キャプチャ人口の99%にした場合、その後、サンプルと呼ばれ、成功と要件は、サンプルの90%があることである成功。(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20}) コメント:90%は、サンプルが成功するための事前確率です。99%は、サンプルが成功した場合、将来の観測が許容範囲内になる条件付き確率です。 私の質問:予測区間を許容区間として見ることができますか?ウェブ上でこれについて矛盾する答えを得ました。言うまでもなく、予測間隔を慎重に定義した人はいないことは言うまでもありません。したがって、予測間隔(または参照)の正確な定義があれば、私はそれを感謝します。 私が理解したのは、たとえば99%の予測間隔では、すべてのサンプルのすべての将来の値の99%がキャプチャされないということです。これは、人口の99%を100%の確率で取得する許容範囲と同じです。 (x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})yyyyyy、将来の値が与えられ、一定の確率で許容範囲に分類されます。上記の予測間隔の定義が正しいかどうかはわかりませんが、(少なくとも)直感に反するようです。 何か助けは?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
時系列予測の信頼区間を計算する方法は?
時系列(からX nとしましょう)があり、ニューラルネットワークなどのモデルを使用して次のサンプル(X n + 1、X n + 2、… 、X n + kとしましょう)を予測する必要があります。または多重線形回帰。時間nでは、X 1からX nまでのすべてのサンプルがあり、X n + 1を予測する必要があります。時間n + 1では、X 1からXまでのすべてのサンプルがありますX1X1X_1XnXnX_nXn+1,Xn+2,…,Xn+kXn+1,Xn+2,…,Xn+kX_{n+1}, X_{n+2},\dots, X_{n+k}X1X1X_1XnXnX_nXn+1Xn+1X_{n+1}n+1n+1n+1X1X1X_1、 X n + 2を予測する必要があります。等々。Xn+1Xn+1X_{n+1}Xn+2Xn+2X_{n+2} モデルを使用して、値を予測したとします。これらの予測値の信頼区間を計算するにはどうすればよいですか?Yn+1,Yn+2,…,Yn+kYn+1,Yn+2,…,Yn+kY_{n+1}, Y_{n+2},\dots, Y_{n+k} この問題で誰かが私を助けることができれば幸いです。(これまでのところ、サンプルの平均の信頼区間を計算するための式を読みましたが、時系列の予測値の信頼区間を計算する方法については何もわかりませんでした)。

1
相互検証を使用する場合の予測間隔の計算
標準偏差の推定値は次の方法で計算されますか? sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. (http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation) 10分割交差検証からサンプリングされた予測精度について (予測セットは独立していますが)トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。これについて説明しているリソースがあれば非常に役立ちます。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
予測間隔の計算
ここに次のデータがあります。炭化水素のパーセンテージが1.0の場合、平均純度の95%信頼区間を計算しようとしています。Rでは、次のように入力します。 > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 しかし、どうすればこの結果を自分で導き出すことができますか?次の式を使ってみました。 snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−√snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} そして、Rに次のように入力します。 > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), 18) > prediction = B0 + B1*1 > SE_predict = sqrt(MSE)*sqrt(1+1/20+(mean(hydro)-1)^2/sum((hydro - mean(hydro))^2)) > prediction …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
二項応答によるロジスティック回帰の結果の予測区間
ロジスティック回帰モデルがあるとします。 P(y=1|x)log(p1−p)=p=βxP(y=1|x)=plog⁡(p1−p)=βx\begin{align} P(y=1\vert\mathbf{x}) &= p \\ \log\left(\frac{p}{1-p}\right) &= \boldsymbol{\beta}\mathbf{x} \end{align} サイズNのランダムサンプルD={X,y}D={X,y}D=\{\mathbf{X},\mathbf{y}\}を指定すると、\ boldsymbol {\ beta}の信頼区間と、それに対応する特定の値\を指定したpの予測区間を計算できます予測ベクトルのmathbf {x} ^ *。これはすべて非常に標準的で詳細なものです(たとえば、こちら)。NNNββ\boldsymbol{\beta}pppx∗x∗\mathbf{x}^* 代わりに、\ mathbf {x} ^ *を指定して、yの予測区間に興味があると仮定します。もちろん、yは値0と1のみをとり、その間に値をとることができないため、yの単一の実現に対する予測区間を計算することはまったく意味がありません。ただし、\ mathbf {x} ^ *の同じ固定値に対してyのm実現を考慮すると 、これは二項確率変数の予測区間を計算する問題に似ています(ただし同一ではありません)。これは、基本的にこの回答へのコメントでGlen_bによって説明された同じ状況ですyyyx∗x∗\mathbf{x}^*yyyyyymmmyyyx∗x∗\mathbf{x}^*。この質問には、「ノンパラメトリックブートストラップを使用する」というささいな質問とは別に、答えはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.