タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
従属変数に「カットオフ」がある場合のモデリング
私が使用する用語のいずれかが間違っている場合は、事前におApび申し上げます。訂正を歓迎します。「カットオフ」と説明するものが別の名前になっている場合はお知らせください。質問を更新できます。 私が興味を持っている状況はこれです:あなたは独立変数xx\bf{x}と単一の従属変数を持っていますyyy。あいまいにしておきますが、これらの変数の良い回帰モデルを取得するのは比較的簡単だと思います。 xx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww これの(やや非現実的な)例は、年金を徴収する期間をモデル化しようとした場合です。この場合、xx\bf{x}は性別、体重、週あたりの運動時間などの関連情報になります。「基礎となる」変数yyyは平均余命です。ただし、モデルでアクセスして予測しようとしている変数はw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)ここで、rは退職年齢です(簡単にするために固定されていると仮定)。 回帰モデリングでこれに対処するための良いアプローチはありますか?

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
カウントデータの分散のパラメトリックモデリング
いくつかのデータをモデル化することを検討していますが、使用できるモデルのタイプがわかりません。カウントデータがあり、データの平均と分散の両方のパラメトリック推定値を提供するモデルが必要です。つまり、さまざまな予測因子があり、それらのいずれかが(グループ平均だけでなく)分散に影響するかどうかを判断したいのです。 分散が平均に等しいため、ポアソン回帰が機能しないことを知っています。私の場合、この仮定は有効ではないので、過剰分散があることを知っています。ただし、負の二項モデルは単一の過分散パラメーターのみを生成し、モデル内の予測変数の関数ではありません。どのモデルがこれを行うことができますか? さらに、モデルおよび/またはモデルを実装するRパッケージについて説明している書籍または論文への参照を歓迎します。

1
分布の自由度の良い事前分布とは何ですか?
分布で使用して、ベイジアンモデルで短い間隔の資産収益をモデル化します。分布の両方の自由度(モデル内の他のパラメーターと共に)を推定したいと思います。資産のリターンが非常に異常であることは知っていますが、それ以上のことはあまり知りません。 そのようなモデルの自由度の適切な、やや有益な事前分布とは何ですか?

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
最小二乗対一般化線形モデル対非線形最小二乗を使用して指数関数をフィッティング
指数関数的減衰を表すデータセットがあります。このデータに指数関数を当てはめたいと思います。応答変数をログ変換してから、最小二乗法を使用して線をフィットさせました。対数リンク関数と応答変数の周りのガンマ分布を持つ一般化線形モデルを使用します。非線形最小二乗法を使用します。2つの係数はそれぞれ類似していますが、それぞれの方法で異なる答えが得られます。私が混乱しているところは、どの方法が最適で、なぜ使用するのかわかりません。誰かがこれらの方法を比較して対比できますか?ありがとうございました。y=Beaxy=Beaxy = Be^{ax}

1
モデルの検索をいつ停止する必要がありますか?
エネルギーのストックプライスと天気のモデルを探しています。私は、ヨーロッパの国々の間で購入したMWattの価格と、天気に関する多くの価値を持っています(Gribファイル)。5年(2011-2015)の各時間。 価格/日 これは1年間、1日あたりです。私はこれを5時間に1時間ごとに持っています。 天気の例 ケルビンでの1時間の3Dscatterplot。1時間あたりのデータごとに1000個の値と、クレビン、風、地理ポテンシャルなどの200個のデータがあります。 私は、MWの1時間あたりの平均価格を予測しようとしています。 天気に関する私のデータは非常に密度が高く、1時間あたり10000値を超えるため、高い相関関係があります。これは、短いビッグデータの問題です。 私は、ラッソー、リッジ、SVRの方法を試し、MWattの平均価格を結果として、天気のデータを収入として使用しました。トレーニングデータとして70%、テストとして30%を使用しました。テストのデータが予測されていない場合(トレーニングデータ内のどこかにある場合)、適切な予測が得られます(R²= 0.89)。しかし、私は自分のデータを予測したいと思います。 したがって、テストデータが私のトレーニングデータの後に時系列である場合、何も予測されません(R²= 0.05)。時系列なので、普通だと思います。そして、多くの自己相関があります。 ARIMAのようなタイムセリエモデルを使わないといけないと思いました。メソッドの順序(セリエが静止している)を計算してテストしました。しかし、それは動作しません。つまり、予測のr²は0.05です。テストデータに対する私の予測は、テストデータに対する予測とはまったく異なります。私は自分の天気をリグレッサとしてARIMAXメソッドを試しました。つまり、情報は追加されません。 ACF / PCF、テスト/トレーニングデータ だから私は一日あたり、そして週あたりの季節のカットをしました 日 最初のトレンドの週 そして、私の株価のトレンドの傾向を事前に判断できれば、これを得ることができます: 青は私の予測であり、赤は実際の値です。 天気のローリング平均を収入として、株価のトレンドのトレンドを結果として回帰を行います。しかし、今のところ、私はどんな関係も見つけていません。 しかし、相互作用がない場合、何もないことをどうやって知ることができますか?多分それは私がそれを見つけていないだけのことです。

5
ホームランを打つ際の平均への回帰の測定
野球をフォローしている人なら誰でも、トロントのホセバウティスタのどこからともなくMVPタイプのパフォーマンスについて聞いたことがあるでしょう。前の4年間で、彼はシーズンあたり約15のホームランを打った。昨年彼は54を打った、野球の歴史の中でわずか12人の選手を超えた数。 2010年には240万ドルが支払われ、2011年にはチームに1,050万ドルを要求しています。760万ドルを提供しています。彼が2011年にそれを繰り返すことができれば、彼はどちらかの額に値するでしょう。しかし、彼が繰り返す確率は何ですか?私たちは彼が平均に後退することをどれほど難しいと期待できますか?彼のパフォーマンスのうちどれだけが偶然によるものであると期待できますか?彼の平均への回帰調整後の2010年の合計は何になると予想できますか?どうすれば解決できますか? 私はLahman Baseball Databaseをいじくり回しており、シーズンごとに少なくとも50打席があった過去5シーズンのすべてのプレーヤーのホームランの合計を返すクエリを絞り出しました。 テーブルは次のようになります(行10のJose Bautistaに注意) first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010 1 Bobby Abreu 15 16 20 15 20 2 Garret Anderson 17 16 15 13 2 3 Bronson Arroyo 2 1 1 0 1 4 Garrett Atkins 29 25 21 9 1 5 Brad Ausmus 2 …
11 r  regression  modeling 

10
モデルを作成する予測以外の理由は?
Joshua Epsteinが「Why Model?」というタイトルの論文を書きました。http://www.santafe.edu/media/workingpapers/08-09-040.pdfから入手できます。16の理由があります。 説明(予測とは非常に異なる) ガイドデータ収集 コアダイナミクスを照らす 動的アナロジーを提案する 新しい質問を見つける 心の科学的習慣を促進する 妥当な範囲への束縛(ブラケット)結果 核となる不確実性を明らかにする。 ほぼリアルタイムで危機のオプションを提供する トレードオフの実証/効率の提案 摂動を通じて一般的な理論の堅牢性に挑戦する 普及している知恵を利用可能なデータと互換性がないものとして公開する 開業医を訓練する 政策対話の規律 一般市民を教育する 明らかにシンプル(複雑)を複雑(シンプル)に明らかにする (エプスタインは彼の論文でより多くの理由について詳しく説明しています。) コミュニティに質問したい: エプスタインが記載しなかった追加の理由はありますか? これらの理由を(おそらく別のグループ化)概念化するよりエレガントな方法はありますか? エプスタインの欠陥や不完全な理由はありますか? これらの理由のより明確な詳述ですか?
11 modeling 

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
ログ線形モデル
誰かがなぜログ線形モデルを非常に素人の言葉で使用するのか説明できますか?私は工学系の出身ですが、これは私にとって難しい問題であることが判明しています。それは統計です。ご返信をお待ちしております。

3
方向独立変数による正規分布DVの関連付けのテスト?
正規分布従属変数が方向分布変数に関連付けられているかどうかの仮説検定はありますか? たとえば、時刻が説明変数である場合(そして、曜日、月などのようなものは無関係であると想定)、つまり、午後11時が午前1時より 22時間進んでいること、および2が2 であることを説明する方法です。時間の背後にある関連のテストで午前1時?真夜中の12:00が午後11:59の1分後に続かないと仮定せずに、連続した時刻が従属変数を説明するかどうかをテストできますか? このテストは、離散方向(モジュラー)の説明変数にも適用されますか?それとも別のテストが必要ですか?たとえば、従属変数が月によって説明されるかどうかをテストする方法(日と季節、および特定の年または10年は無関係であると想定)。年の月を処理すると、順序は無視されます。ただし、月を標準の序数変数として扱う(たとえば、Jan = 1 ... Dec = 12)と、1月が11月の2か月後に来ることは無視されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.