タグ付けされた質問 「prediction」

統計モデルを使用して、未知の乱数の予測。

2
サンプル外予測を改善しない「重要な変数」-解釈方法は?
多くのユーザーにとって非常に基本的なことだと思います。 線形回帰モデルを使用して、(i)いくつかの説明変数と私の応答変数の関係を調査し、(ii)説明変数を使用して私の応答変数を予測します。 特定の説明変数Xが、私の応答変数に大きな影響を与えているようです。私の応答変数のサンプル外予測の目的でこの説明変数Xの追加値をテストするために、2つのモデルを使用しました:すべての説明変数を使用するモデル(a)とすべての変数を使用するモデル(b)変数Xを除きます。両方のモデルで、サンプル外のパフォーマンスのみを報告します。どちらのモデルもほぼ同じように良好に機能するようです。つまり、説明変数Xを追加しても、サンプル外の予測は改善されません。モデル(a)、つまりすべての説明変数を持つモデルも使用して、説明変数Xが応答変数に大きな影響を与えることを確認しました。 私の質問は今です:この発見をどう解釈するか?直接的な結論は、変数Xは推論モデルを使用して私の応答変数に大きな影響を与えるように見えても、サンプル外の予測を改善しないということです。しかし、私はこの発見をさらに説明するのに苦労しています。これはどのようにして可能であり、この発見の説明は何ですか? 前もって感謝します! 追加情報:「有意に影響する」とは、パラメーター推定の最高95%事後密度間隔に0が含まれないことを意味します(ベイズアプローチを使用したIM)。頻度論的には、これはおおよそ0.05未満のp値を持つことに相当します。私はすべてのモデルパラメーターに拡散(情報のない)事前分布のみを使用しています。私のデータは縦方向の構造を持ち、合計で約7000の観測が含まれています。サンプル外予測では、90%のデータを使用してモデルを適合させ、10%のデータを使用して複数の複製を使用するモデルを評価しました。つまり、トレーニングテストの分割を複数回実行し、最終的に平均パフォーマンスメトリックを報告しました。

1
ロジスティック回帰問題のdecision_function、predict_proba、predict functionの違いは何ですか?
私はsklearnのドキュメントを調べてきましたが、ロジスティック回帰のコンテキストでこれらの関数の目的を理解できません。decision_functionそれが超平面とテストインスタンス間の距離と述べています。この特定の情報はどのように役立ちますか?そしてこれはどのように関連しpredict、predict-proba方法ですか?

2
ベイジアン線形回帰で事後予測分布を評価する
ベイジアン線形回帰の事後予測分布を、3ページのここで説明した基本的なケースを超えて評価し、以下にコピーする方法に混乱しています。 p (y〜∣ y)= ∫p (y〜| β、σ2)p (β、σ2∣ y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) 基本的なケースは次の線形回帰モデルです。 y= Xβ+ ϵ 、y〜N(Xβ、σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) で均一な事前分布、でscale-Inv事前分布、または正規逆ガンマ事前分布(ここを参照)を使用する場合、事後予測分布は分析的であり、学生tです。 χ 2 σ 2ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 このモデルについてはどうですか? y= Xβ+ ϵ …

1
相互検証を使用する場合の予測間隔の計算
標準偏差の推定値は次の方法で計算されますか? sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. (http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation) 10分割交差検証からサンプリングされた予測精度について (予測セットは独立していますが)トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。これについて説明しているリソースがあれば非常に役立ちます。

1
WinBUGSで特定の変数の予測を取得する方法は?
私はWinBUGSの新しいユーザーであり、あなたの助けに1つの質問があります。次のコードを実行した後、私はのパラメータを持っbeta0てbeta4(統計情報、密度)が、私は最後の値の予測を取得する方法がわからないh私がするように設定、NAコード内でモデル化することを。 誰かが私にヒントを与えることができますか?何かアドバイスをいただければ幸いです。 model { for(i in 1: N) { CF01[i] ~ dnorm(0, 20) CF02[i] ~ dnorm(0, 1) h[i] ~ dpois (lambda [i]) log(lambda [i]) <- beta0 + beta1*CF03[i] + beta2*CF02[i] + beta3*CF01[i] + beta4*IND[i] } beta0 ~ dnorm(0.0, 1.0E-6) beta1 ~ dnorm(0.0, 1.0E-6) beta2 ~ dnorm(0.0, 1.0E-6) beta3 ~ dnorm(0.0, …

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
バイアス分散分解:予測二乗予測誤差の項で、既約誤差が少ない
ハスティら "統計的学習の要素"(2009)データ生成処理考える とE(ε )= 0とヴァー(ε )= σ 2 εを。Y=f(X)+εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} それらは、点での予想二乗予測誤差の次のバイアス分散分解を示します(p。223、式7.9): Err (x 0)x0x0x_0 私自身の仕事で、私は指定されていない Fを(⋅)が、任意の予測取る yは(これが関連している場合)の代わりに。質問:バイアス2+分散 、より正確には Err(x0)-既約エラーの用語を探してい ます。Err(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) …

2
回帰結果には予期しない上限があります
バランススコアを予測し、いくつかの異なる回帰方法を試しました。気づいたことの1つは、予測値に何らかの上限があるように見えることです。つまり、実際のバランスはですが、私の予測は約達しています。次のプロットは、実際のバランスと予測されたバランス(線形回帰で予測)を示しています。0.8[ 0.0 、1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 そして、同じデータの2つの分布プロットを次に示します。 私の予測変数は非常に歪んでいるため(べき法則分布のユーザーデータ)、結果を次のように変更するBox-Cox変換を適用しました。 これは予測の分布を変更しますが、その上限はまだあります。だから私の質問は: 予測結果のそのような上限の考えられる理由は何ですか? 実際の値の分布に対応するように予測を修正するにはどうすればよいですか? おまけ: Box-Cox変換後の分布は、変換された予測子の分布に従うように見えるので、これが直接リンクされている可能性はありますか?その場合、分布を実際の値に合わせるために適用できる変換はありますか? 編集: 5つの予測子を持つ単純な線形回帰を使用しました。

3
Rを使用したリッジ回帰のKフォールドまたはホールドアウト相互検証
200人の被験者と1000個の変数を使用したデータの予測の相互検証に取り組んでいます。変数の数(使用したい)がサンプルの数より大きいので、リッジ回帰に興味があります。したがって、収縮推定量を使用したいと思います。以下はデータの例です。 #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g))) myd <- data.frame(y=y, M) myd[1:10,1:10] y X1 …

3
ベイジアン予測分布について
ベイズ入門コースを受講していますが、予測分布を理解するのが困難です。なぜそれらが役立つのか理解していて、その定義に精通していますが、よくわからないことがいくつかあります。 1)新しい観測のベクトルの正しい予測分布を取得する方法 データのサンプリングモデルと以前の作成したと仮定します。与えられた場合、観測は条件付きで独立していると仮定します。p(yi|θ)p(yi|θ)p(y_i | \theta)p(θ)p(θ)p(\theta)yiyiy_iθθ\theta いくつかのデータ、以前のを後部に更新します。D={y1,y2,...,yk}D={y1,y2,...,yk}\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}p(θ)p(θ)p(\theta)p(θ|D)p(θ|D)p(\theta | \mathcal{D}) 新しい観測のベクトルを予測したい場合、、Iこの式 これはと等しくありません なので、予測された観測は独立していませんよね?N={y~1,y~2,...,y~n}N={y~1,y~2,...,y~n}\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}p(N|D)=∫p(θ|D)p(N|θ)dθ=∫p(θ|D)∏i=1np(y~i|θ)dθ,p(N|D)=∫p(θ|D)p(N|θ)dθ=∫p(θ|D)∏i=1np(y~i|θ)dθ, p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i …

1
時系列予測パフォーマンスの評価
いくつかの時間変数でトレーニングされた動的単純ベイズモデルがあります。モデルの出力はの予測でありP(Event) @ t+1、それぞれで推定されますt。 P(Event)対のプロットtimeは、次の図に示すとおりです。この図では、黒い線P(Event)が私のモデルで予測されたものを表しています。水平な赤い線は、イベント出来事の事前確率を表します。縦の点線は、時系列での(5つの)イベント発生を表します。 理想的には、P(Event)イベントを観察する前に予測ピークを確認し、イベントの見込みがない場合はゼロに近いままにしたいです。 イベントの発生を予測する上で、モデル(黒い線)のパフォーマンスを報告できるようにしたいと思います。私のモデルと比較する明らかな候補は、イベントの事前確率(赤い線)です。これは、予測子として使用した場合、すべてに対して同じ確率値を予測しますt。 この比較を達成するための最良の正式な方法は何ですか? PS:私は現在、以下にコード化されている(直感的な)スコアリングを使用しています。スコアが全体的に低いほど、予測パフォーマンスが良いことを示しています。このスコアリングで以前のものを倒すのは実際にはかなり難しいことがわかりました: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - 0; model_score …

1
一部の入力に欠損値がある場合のrandomForest(R)による予測(NA)
randomForest新しいケースのクラスを予測するアプリケーションで使用したい細かい分類モデルがあります。新しいケースには必然的に欠損値があります。NAの場合、Predictはそのようには機能しません。それでは、どうすればよいですか。 data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> 試しましたmissForest。元のデータと新しいケースを組み合わせ、それをmissForestでシェイクし、新しいケースでNAの帰属値を得ました。しかし、あまりにも重いコンピューティング。 data.imp <- missForest(data.with.na) しかし、rf-modelを使用して、欠損値のある新しいケースを予測する方法があるはずですよね?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
回帰モデルを使用して予測を行う:いつ停止するか?
予測を行うために、実験測定から単純な線形回帰モデルを計算しました。利用可能なデータから離れすぎているポイントの予測は計算しないでください。しかし、どこまで外挿できるかを知るのに役立つガイダンスは見つかりませんでした。たとえば、ディスクサイズが50GBの場合の読み取り速度を計算すると、結果は現実に近いものになると思います。100GB、500GBのディスクサイズはどうですか?私の予測が現実に近いかどうかはどうすればわかりますか? 私の実験の詳細は次のとおりです。 異なるディスクサイズを使用してソフトウェアの読み取り速度を測定しています。これまでのところ、実験間で5GBのディスクサイズを増やして(合計6メジャー)、5GBから30GBで測定しました。 私の意見では、結果は直線的で、標準誤差は小さいと思います。

1
オフセットでGLMポアソンを予測
これはおそらく基本的な質問だと思います...しかし、私は答えを見つけられないようです。 私はGLMをポアソンファミリに適合させてから、予測を確認しようとしましたが、オフセットが考慮されているようです。 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") レートではなくケースが表示されます... 私も試しました model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 同じ結果。ただし、mgcvを使用してGAMから予測する場合、予測ではオフセットを考慮します(レートを取得します)。 何か不足していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.