タグ付けされた質問 「prediction」

統計モデルを使用して、未知の乱数の予測。

1
ランダムフォレストと予測
ランダムフォレストの仕組みを理解しようとしています。木がどのように構築されるかについては把握していますが、ランダムフォレストがバッグのサンプルから予測を行う方法を理解できません。誰でも簡単な説明をお願いできますか?:)

1
混合効果モデルの予測:ランダム効果をどうするか?
この架空のデータセットを考えてみましょう。 set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) lmeランダム効果モデルで応答をモデル化するために使用できます。 require(nlme) model <- lme(response ~ dose + group + dose*group, random = ~1|subject, df) predictこのモデルの結果を使用して、たとえば、グループ1の一般的な被験者の用量10に対する応答を取得します。 pred <- …

3
ランダムフォレストによるカウントデータの予測
ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか?これはどのように進みますか?私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか?私はここでかなり迷っています。何か案は?

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
キャレットパッケージでRandomForestのFinalModelを使用して予測する前に前処理が必要ですか?
キャレットパッケージを使用して、randomForestオブジェクトを10x10CVでトレーニングします。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) その後、testSetでrandomForestをテストします(新しいデータ) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱行列は、モデルがそれほど悪くないことを私に示しています。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

1
Netflixが5つ星の評価システムから高評価/低評価のシステムに切り替えるのはなぜですか?
Netflixは、ユーザーが送信した他の映画や番組の評価に基づいて提案を行っていました。この評価システムには5つ星がありました。 現在、Netflixを使用すると、ユーザーは映画/番組を高く評価/低く評価(高く評価/低く評価)できます。彼らは映画を評価する方が簡単だと主張している。 この2ウェイ分類は、5ウェイ分類システムよりも統計的に予測性が低いのではないでしょうか。変動が少ないと思いませんか?

1
予測間隔=信頼できる間隔?
予測間隔と信頼できる間隔が同じことを評価するかどうか疑問に思っています。 たとえば、線形回帰の場合、近似値の予測区間を推定するとき、値が下がると予想される区間の限界を推定します。信頼区間とは逆に、平均値などの分布パラメーターに焦点を合わせるのではなく、説明変数が特定のX値に対して取ることができる値に焦点を合わせます(と想定)。Y = +のB 。バツ(1 - α )%(1−α)%(1-\alpha)\% Y= a + b 。バツ Y=a+b。バツ\ Y = a + b.X ベイジアンフレームワーク内の特定の値の近似値を事後確率分布から推定する場合、信頼できる区間を推定できます。この間隔は、近似値について同じ情報を提供しますか?バツバツX

1
Rニューラルネット-計算は一定の答えを与える
予測のためにRのneuralnetパッケージ(ドキュメントはこちら)を使用しようとしています。 ここで私がやろうとしていること: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

1
ABCモデルの選択
要約統計量の使用に起因するエラーが存在するため、ベイズ因子を使用したABCモデルの選択は推奨されないことが示されています。このホワイトペーパーの結論は、ベイズ因子を近似する一般的な方法(アルゴリズム2)の動作の研究に依存しています。 ベイズ因子がモデル選択を行う唯一の方法ではないことはよく知られています。モデルの予測パフォーマンスなど、関心のある他の機能があります(スコアリングルールなど)。 私の質問は、複雑な尤度のコンテキストで予測パフォーマンスの観点からモデル選択を行うために使用できるいくつかのスコアリングルールまたは他の量を近似するためのアルゴリズム2に類似した方法はありますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
予測と許容範囲
予測と許容範囲についていくつか質問があります。 最初に許容範囲の定義について合意しましょう。信頼レベル(90%など)、取得する母集団の割合(99%など)、サンプルサイズ(20など)が与えられます。確率分布は既知であり、通常便宜上。ここで、上記の3つの数値(90%、99%、20)と、基礎となる分布が正規であることを前提として、許容誤差の数値計算できます。試料所定の(X 1、xは2、... 、X 20)との平均ˉ Xと標準偏差S、公差間隔であるˉ X ± K Skkk(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})x¯x¯\bar{x}sssx¯±ksx¯±ks\bar{x}\pm ks。この公差は間隔キャプチャ人口の99%にした場合、その後、サンプルと呼ばれ、成功と要件は、サンプルの90%があることである成功。(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20}) コメント:90%は、サンプルが成功するための事前確率です。99%は、サンプルが成功した場合、将来の観測が許容範囲内になる条件付き確率です。 私の質問:予測区間を許容区間として見ることができますか?ウェブ上でこれについて矛盾する答えを得ました。言うまでもなく、予測間隔を慎重に定義した人はいないことは言うまでもありません。したがって、予測間隔(または参照)の正確な定義があれば、私はそれを感謝します。 私が理解したのは、たとえば99%の予測間隔では、すべてのサンプルのすべての将来の値の99%がキャプチャされないということです。これは、人口の99%を100%の確率で取得する許容範囲と同じです。 (x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})yyyyyy、将来の値が与えられ、一定の確率で許容範囲に分類されます。上記の予測間隔の定義が正しいかどうかはわかりませんが、(少なくとも)直感に反するようです。 何か助けは?

1
Rの各予測の回帰の信頼スコア(ランダムフォレスト/ XGBoostを使用)を計算する方法は?
ランダムフォレストやExtreme Gradient Boosting(XGBoost)などのアルゴリズムを使用する場合、予測値ごとに信頼スコア(信頼値または尤度とも呼ばれます)を取得する方法はありますか?この信頼スコアが0から1の範囲であり、特定の予測について私がどれほど自信があるかを示しているとします。 自信についてインターネットで見つけたものから、通常は間隔で測定されます。ライブラリconfpredからの関数を使用して計算された信頼区間の例を次に示しlavaます。 library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T, col=Col("blue"), border=F)) } コード出力は信頼区間のみを提供します。 …

4
多重共線性は本当に問題ですか?
私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。 正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。 しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。 つまり、結局、多重共線性が問題になるのでしょうか。

1
mgcv gamでのランダムな効果による予測
私は、mgcvのgamを使用して総漁獲量をモデル化し、個々の船(時間の経過とともに繰り返し漁業を行う)の単純なランダム効果をモデル化することに興味があります。私は98科目を持っているので、ランダム効果をモデル化するためにgammではなくgamを使用すると思いました。私のモデルは: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 私はbs = "re"とby = dumでランダム効果をコード化しました(これにより、予測値またはゼロでの血管効果を予測できるようになります)。"dum"は1のベクトルです。 モデルは実行されますが、予測に問題があります。予測のために血管の1つ(Vessel21)を選択し、予測に関心のある予測子(距離)以外のすべての平均値を選択しました。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" = …

2
因果推論と予測の関係は何ですか?
因果推論と予測(分類と回帰の両方)の関係と違いは何ですか? 予測のコンテキストでは、予測子/入力変数と応答/出力変数があります。これは、入力変数と出力変数の間に因果関係があることを意味しますか?それで、予測は因果推論に属しますか? 私が正しく理解している場合、因果推論は、別の確率変数を与えられたある確率変数の条件付き分布を推定することを考慮し、確率変数間の条件付き独立性を表すためにグラフィカルモデルを使用することがよくあります。したがって、この意味での因果推論は予測ではありませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.