タグ付けされた質問 「aic」

AICは、赤池情報量基準を表します。これは、ペナルティ付き尤度を使用してモデルのクラスから最適なモデルを選択するために使用される1つの手法です。AICが小さいほど、優れたモデルになります。

3
一般化線形混合モデル:モデルの選択
この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました: 私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル(主効果のみ)を与えたいと思います。 私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル(キーワード:データ浚渫)を比較するのはそれほど面白くありませんでした。 これについて同僚と話し合ったところ、GLMMで段階的(またはフォワード)モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値(たとえば、GLMMの尤度比検定に基づく)を使用する代わりに、AICを出入基準として使用する必要があります。 このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。 だから私は基本的に2つの質問があります: エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか?はいの場合、代替手段は何でしょうか? 上記の手順について説明している参考資料はありますか(最終報告の参考資料としても)? ベスト、 エミリア

2
REML対ML stepAIC
AICを使用して最適なモデルを選択した後、混合モデル分析を実行する方法に関する文献を調べようとしたところ、私は圧倒されました。私のデータはそれほど複雑ではないと思いますが、私が行ったことが正しいことの確認を求めており、次に進む方法についてアドバイスします。lmeとlmerのどちらを使用する必要があるのか​​、またREMLとMLのどちらを使用する必要があるのか​​、どちらを使用するのかわかりません。 選択の値があり、どの共変量がその値に最も影響を与え、予測を可能にするかを知りたいです。以下は、私が作業しているテストのサンプルデータとコードの一部です。 ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 私は、さまざまな組み合わせと最大2ウェイの相互作用項でこのデータを探索する最大19のモデルを持っていますが、常に変量効果としてIDを使用し、従属変数としてcomp1を使用しています。 Q1。どちらを使用しますか?lmeまたはlmer?それは重要ですか? これらの両方で、MLまたはREMLを使用するオプションがあり、劇的に異なる答えが得られます-MLの後にAICを使用すると、6つのモデルがすべて同じAIC値で終わり、モデルの組み合わせは単に意味がありませんが、REML最も可能性の高いモデルの2つが最良の結果になります。ただし、REMLを実行すると、anovaを使用できなくなります。 Q2。ANOVAで使用するためにREMLよりもMLを使用する主な理由は何ですか?これは私には分かりません。 それでもstepAICを実行できないか、19のモデルを絞り込む別の方法がわかりません。 Q3。この時点でstepAICを使用する方法はありますか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
時系列モデルで適切な遅延順序を選択するために、情報基準(調整されたはない)が使用されるのはなぜですか?
ARMA-GARCHのような時系列モデルでは、モデルの適切なラグまたは順序を選択するために、AIC、BIC、SICなどのさまざまな情報基準が使用されます。 私の質問は非常に単純です、なぜ適切なモデルを選択するために調整されたを使用しないのですか?調整後の値が高くなるモデルを選択できます。調整された両方のために前者PENALIZEモデルにおける説明変数の追加数の情報量基準PENALIZE以降PENALIZE尤度値。 R2R2R^2R2R2R^2R2R2R^2R2R2R^2

4
AIC値の解釈
私がロジスティックモデルで見た典型的なAICの値は、数千、少なくとも数百です。例:http: //www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/では、AICは727.39です。 AICはモデルを比較するためだけに使用するべきだと常に言われていますが、特定のAIC値の意味を理解したいと思いました。式に従って、 A IC= − 2 ログ(L )+ 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K ここで、L = MLE推定器からの最尤、Kはパラメーターの数 上記の例では、K = 8 だから、単純な算術で: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= 711.39/-2 = -355.695 Hence, L = exp(-355.695) = 3.3391E-155 したがって、私の理解が正しければ、これはMLEによって識別された関数がデータに適合する可能性です。これは本当に本当に低いようです。 ここで何が欠けていますか?

1
モデル選択におけるAICとp値の同等性
この質問の回答に対するコメントで、モデル選択でAICを使用することは、0.154のp値を使用することと同等であると述べられました。 私はそれをRで試しました。「後方」サブセット選択アルゴリズムを使用して、完全な仕様から変数をスローしました。1つ目は、p値が最も高い変数を順次スローし、すべてのp値が0.154を下回ったときに停止します。次に、変数を削除して、改善が見られなくなるまで削除すると、AICが最も低くなります。 0.154のp値をしきい値として使用しても、ほぼ同じ結果になることがわかりました。 これは本当ですか?もしそうなら、誰もが理由を知っていますか、それを説明する情報源を参照できますか? PS登録したばかりなので、コメントを書いたり、コメントを書いたりすることができませんでした。これはモデルの選択や推論などに最適なアプローチではないことを認識しています。

2
AIC、anovaエラー:モデルがすべて同じ数の観測値に適合していない、モデルがすべて同じサイズのデータ​​セットに適合していない
私はこのようなモデルを持っています: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x) …
9 r  mixed-model  aic 

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
時系列モデルの選択:AICとサンプル外のSSEおよびそれらの同等性
AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。 最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。 サンプル外のパフォーマンスに基づいてモデルを比較してみませんか?(たとえば、サンプル外予測でSSEが最も低いモデルを選択します)。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。 AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。 私が働いていた例(ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です)で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。 トレーニングサンプルとテストサンプルのデータを分割しました(任意の時点で、以下の質問について) トレーニングサンプルを使用して、競合するモデル(外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更)を推定しました(最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です)。 次に、テストサンプルと同じ期間(期間231〜260)のシリーズを予測しました。 SSE=∑260t=231(ytˆ−yt)2SSE=∑t=231260(yt^−yt)2SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2ytyty_tytˆyt^\widehat{y_t} AIC(トレーニングデータを使用して計算)で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります(少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します)。 誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。 最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか?(「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。)

2
統計学習入門のAIC式
Hastieの「Introduction to Statistical Learning」で提示された式に少し戸惑っています。第6章、212ページ(6番目の印刷、ここで利用可能)では、次のように述べられています。 A IC= R SSnはσ^2+ 2 Dんあ私C=RSSんσ^2+2dんAIC = \frac{RSS}{n\hat\sigma^2} + \frac{2d}{n} ガウスノイズのある線形モデルの場合、は予測子の数、は誤差分散の推定値です。しかしながら、dddσ^σ^\hat\sigma σ^2= R SS(n − 2 )σ^2=RSS(ん−2)\hat\sigma^2 = \frac{RSS}{(n-2)} これについては、第3章の66ページで説明されています。 それは意味するでしょう: A IC= (n − 2 )ん+ 2 Dんあ私C=(ん−2)ん+2dんAIC = \frac{(n-2)}{n} + \frac{2d}{n} これは正しくありません。誰かが私が間違っていることを指摘できますか?

1
AICに関してモデルの互換性を損なうものは何ですか?
同じデータセットからの予測子(および応答変数)を使用していくつかのモデルを適合させたとします。 モデルにどのような変更を加えると、AICに基づいてモデルを比較するのが不合理になりますか? 1)従属変数をログ変換するとしたら、それを変換がなかったモデルと比較するのは公平ですか? 2)モデルから予測変数を削除する場合、すべての予測変数が追加されたモデルと比較できますか? 3)2つのglmを2つの異なるファミリに適合させる場合でも、AICに基づいてそれらを比較できますか?異なるリンク機能についてはどうですか? ご協力ありがとうございます。
9 aic 

1
トレイン/テストスプリットの代わりにAICまたはBICをどのように使用できますか?
最近、いくつかの「非公式」ソースに出くわしました。これは、状況によっては、AICまたはBICを使用して時系列モデルをトレーニングする場合、データをテストに分割してトレーニングする必要がないことを示しています。トレーニング用のデータ。(出典には、CVに関するRob Hyndmanのブログ投稿に関するディスカッション、スタンフォード大学からのこのプレゼンテーション、またはこのテキストのセクション4が含まれます)。 特に、データセットが小さすぎてトレインとテストを分割できない場合に、AICまたはBICを使用できることを示しているようです。 たとえば、Rob Hyndmanのコメント:「AIC / BICを使用する方がテストセットやCVを使用するよりもはるかに効率的であり、そうでない場合に十分なデータがない短い時系列では不可欠になります。」 しかし、これについて詳細に説明しているテキストや論文を見つけることはできません。 特に私を困惑させることの1つは、AICとBICが相互検証に漸近的になる傾向があるということです。つまり、可能であれば、それらは大きなデータセットのCVを置き換えることになります。 誰かが私にこのアイデアの正式な議論(本の章、論文、チュートリアル)を指摘できますか?

2
「段階的モデル選択」とは正確には何ですか?
ステップワイズモデル選択のメリットについてはすでに説明しましたが、「ステップワイズモデル選択」または「ステップワイズ回帰」が正確に何であるかは、はっきりしなくなりました。私はそれを理解したと思ったが、もう確かではない。 私の理解では、これらの2つの用語は同義語であり(少なくとも回帰のコンテキストでは)、データが与えられた場合、「最適」または「最良」のモデルにおける予測変数の最適なセットの選択を指します。(ここにWikipediaのページがあり、ここに役立つと思われる別の概要があります。) 以前のいくつかのスレッド(例:ここでは自動モデル選択のアルゴリズム)に基づいて、段階的なモデル選択は主要な罪と見なされているようです。それでも、それは、尊敬されている統計学者と思われるものを含め、常に使用されているようです。または、用語を混同していますか? 私の主な質問は: 「段階的モデル選択」または「段階的回帰」とは、次のことを意味します 。A)尤度比検定などの逐次仮説検定を行うか、p値を調べるか。(ここに関連する投稿があります:段階的な選択を実行した後にp値が誤解を招くのはなぜですか?)これはそれが意味することであり、なぜ悪いのですか? または B)AIC(または類似の情報量基準)に基づく選択も同様に悪いと考えていますか?自動モデル選択のアルゴリズムの回答から、これも批判されているようです。一方、ウィッティンガム等。(2006; pdf)1 情報理論(IT)アプローチに基づく変数選択は段階的選択とは異なることを示唆しているようです(有効なアプローチのようです)...? そして、これが私のすべての混乱の原因です。 フォローアップするために、AICベースの選択が「段階的」に該当せず、不適切であると見なされる場合、追加の質問を次に示します。 このアプローチが間違っている場合、なぜそれが教科書や大学のコースなどで教えられているのですか?それはすべて間違っていますか? モデルに残す必要がある変数を選択するための適切な代替手段は何ですか?相互検証とトレーニングテストデータセット、およびLASSOを使用するための推奨事項を見つけました。 考えられるすべての変数を無差別にモデルに投入し、段階的な選択を行うことには問題があることに誰もが同意できると思います。もちろん、いくつかの健全な判断は、最初に何が起こるかを導くべきです。しかし、いくつかの(たとえば生物学的)知識に基づいて、可能な限られた数の予測変数から始めて、これらすべての予測変数が私たちの応答を説明しているとしたらどうでしょうか。このモデル選択のアプローチにはまだ欠陥がありますか?また、異なるモデル間のAIC値が非常に類似している場合(およびそのような場合にマルチモデル推論が適用される場合)は、「最良の」モデルの選択が適切でない場合があることを認めます。しかし、AICベースの段階的選択を使用するという根本的な問題は依然として問題ですか? どの変数が応答をどのように説明しているように見えるのかを調べている場合、「すべてのモデルが間違っているが、一部は有用である」ことがわかっているため、なぜこのアプローチが間違っているのでしょうか。 1. Whittingham、MJ、Stephens、PA、Bradbury、RB、およびFreckleton、RP(2006)。なぜ生態学と行動でまだ段階的モデリングを使用するのですか?Journal of Animal Ecology、75、pp。1182〜1189。

2
BICが有用でAICが役に立たない状況はありますか?
以下のためのWikipediaのエントリでは赤池の情報量基準、我々は下の読みBICとの比較(ベイズ情報量基準)という ... AIC / AICcにはBICよりも理論上の利点があります... AIC / AICcは情報の原則から導き出されます。BICはそうではありません... BICには1 / R(Rは候補モデルの数)の事前確率があります。これは「賢明ではない」... AICcはBICよりも実用的/パフォーマンス上の利点がある傾向があります... AICは漸近的です最適... BICは漸近的に最適ではありません... AICが最適に収束する速度は...可能な限り最高です。 AIC トークセクションでは、BICセクションとの比較の偏った表示について多くのコメントがあります。イライラしたある寄稿者は、記事全体が「タバコのコマーシャルのように読める」と抗議しました。 他の情報源、たとえばこの論文の付録では、AICのクレームのテノールがより現実的に見えます。したがって、コミュニティへのサービスとして、以下をお願いします。 Q:BICが有効でAICが役に立たない状況はありますか?

1
AICがある場合に、予測プロパティを評価するためにデータをトレーニングパーツとテストパーツに分割するポイントは何ですか?
漸近的に、AICを最小化することは、断面データの1対1の交差検証MSEを最小化することと同じです[ 1 ]。それでは、AICがある場合、モデルの予測特性を測定するために、データをトレーニング、検証、テストセットに分割する方法を使用するのはなぜですか?このプラクティスの利点は具体的には何ですか? 1つの理由が考えられます。モデルの予測パフォーマンスを評価したい場合、サンプル外分析が役立ちます。ただし、AICは予測の正確さの尺度ではありませんが、通常、モデルがどれだけ適切に予測できるかという点で、あるモデルがそのデータの最大の可能性に達している場合(データが示されている場合)には良い考えがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.