タグ付けされた質問 「bic」

BICは、ベイジアン情報量基準の頭字語です。BICはモデル比較の1つの方法です。AICも参照

11
AICまたはBICを他よりも好む理由はありますか?
AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?

3
AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC —それらを同じ意味で使用できますか?
p。彼のPRNNブライアンリプリーの34人は、「AICは赤池(1974)によって「情報基準」と命名されましたが、Aは赤池を表すと一般に信じられているようです」とコメントしています。実際、AIC統計を導入する際、赤池(1974、p.719)は次のように説明しています。 "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". この引用を1974年の予測として考えると、赤池(1977、1978)とシュワルツ(1978)によって、わずか4年で2種類のBIC統計(ベイジアンIC)が提案されたことに注目することは興味深いです。Spiegelhalterらがかかった。(2002)DIC(Deviance IC)を思い付くまでにはるかに長い。CIC基準の出現は赤池(1974年)によって予測されていませんでしたが、それが決して考慮されなかったと信じることは単純です。2005年にCarlos C. Rodriguezによって提案されました(R. TibshiraniとK. KnightのCIC(共分散インフレーション基準)は異なることに注意してください)。 EIC(経験的IC)が2003年頃にモナッシュ大学の人々によって提案されたことを知っていました。私は、Focused Information Criterion(FIC)を発見しました。一部の書籍では、HannanおよびQuinn ICをHICと呼んでいます。たとえば、これを参照してください)。GIC(Generalized IC)が必要であることは知っていますが、情報投資基準(IIC)を発見しました。NIC、TICなどがあります。 私はおそらくアルファベットの残りをカバーできると思うので、AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC、...のシーケンスがどこで停止するか、アルファベットの文字が何であるかを尋ねていません使用されていないか、少なくとも2回使用されていない(たとえば、EICのEは、ExtendedまたはEmpiricalを表します)。私の質問はもっと簡単で、もっと実用的になることを願っています。これらの統計を相互に交換して使用し、それらが導き出された特定の仮定、それらが適用されるはずの特定の状況などを無視できますか? この質問の一部は、Burnham&Anderson(2001)が次のように書いていることによるものです。 ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

5
モデル選択のAICガイドライン
私の理解では、AICよりもpar約をより重視するということなので、私は通常BICを使用します。ただし、私は今、より包括的なアプローチを使用することを決定し、AICも使用したいと考えています。Raftery(1995)がBICの違いに関する優れたガイドラインを提示したことを知っています:0-2は弱い、2-4は1つのモデルが優れているという肯定的な証拠などです。 私は教科書を調べましたが、AICでは奇妙に見えます(差が大きいほど弱く、AICの差が小さいほど1つのモデルが優れているように見えます)。これは、私が教えられたことを知っていることに反します。私の理解では、AICを低くしたいということです。 RafteryのガイドラインがAICにも適用されるかどうか、またはあるモデルと別のモデルの「証拠の強さ」に関するガイドラインをどこで引用できるかを知っていますか? そして、はい、カットオフは素晴らしいものではありません(私はそれらをいらいらさせます)が、それらは異なる種類の証拠を比較するときに役立ちます。

3
投げ縄回帰モデルのAICとBICを計算することはできますか?
投げ縄回帰モデルや、パラメータが部分的にしか方程式に入力されていない他の正規化モデルのAICまたはBIC値を計算することは可能ですか?自由度をどのように決定しますか? Rを使用して、投げ縄回帰モデルをパッケージのglmnet()関数に適合glmnetさせています。モデルのAIC値とBIC値を計算する方法を知りたいです。このようにして、値を正則化なしで適合するモデルと比較する場合があります。これは可能ですか?
31 r  model-selection  lasso  aic  bic 

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Rで、AICとBICがどの相互検証方法と同等であるかを経験的に実証するにはどうすればよいですか?
で質問他の場所でこのサイトには、いくつかの答えは、AICは(LOO)クロスバリデーションを-1を残し、BICはK倍クロスバリデーションと同等であることと等価であることを述べました。これをRで経験的に実証する方法はありますか。LOOとKフォールドに関連する技術が明確になり、AICとBICの値と同等であることが実証されますか。この点に関しては、十分にコメントされたコードが役立ちます。また、BICのデモでは、lme4パッケージを使用してください。サンプルデータセットについては、以下を参照してください... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a <- rnorm(60) #predictor b <- rnorm(60) #predictor c <- rnorm(60) #predictor y <- rnorm(60)*3.5+a+b #the outcome is really a function of predictor a and b but not predictor …
26 r  aic  cross-validation  bic 

3
AICおよびBIC番号の解釈
AIC(赤池情報量基準)とBIC(ベイズ情報量基準)の推定値を解釈する方法の例を探しています。 BIC間の負の差は、一方のモデルが他方のモデルの事後オッズとして解釈できますか?これを言葉にするにはどうすればよいですか?たとえば、BIC = -2は、他のモデルよりも優れたモデルのオッズが約ことを意味する場合があります。e2=7.4e2=7.4e^2= 7.4 基本的なアドバイスはこの新人によって高く評価されています。

1
モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)
Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。ln (n )> 2ln(n)>2\text{ln}(n)>2 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。 ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。 質問: ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか? ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

1
BICは真のモデルを見つけようとしますか?
この質問は、AICとBICの違いに関するトピックIおよび他の多くのトピックに関する混乱を解決するためのフォローアップまたは試みです。このトピックに関する@Dave Kellenによる非常に良い回答(/stats//a/767/30589)を読んでください: あなたの質問は、AICとBICが同じ質問に答えようとしていることを意味しますが、これは真実ではありません。AICは、未知の高次元の現実を最も適切に説明するモデルを選択しようとします。これは、現実が考慮されている候補モデルのセットに決して含まれないことを意味します。それどころか、BICは候補のセットの中からTRUEモデルを見つけようとします。研究者が道に沿って構築したモデルの1つで現実が具体化されるという仮定は非常に奇妙です。これは、BICにとって本当の問題です。 以下のコメントで@ gui11aumeが読みました: (-1)すばらしい説明ですが、私は主張に挑戦したいと思います。@Dave Kellen TRUEモデルがBICのセットのどこにあるべきかという考えをどこで参照してください。この本で著者がこれが事実ではないという説得力のある証拠を与えるので、私はこれについて調査したいと思います。– gui11aume 12年5月27日21:47で このアサーションはシュワルツ自身(1978)から来ているようですが、アサーションは必要ではありませんでした。 Burnham and Anderson、2004): BICの派生は、真のモデルの存在を前提としていますか、より厳密には、BICの使用時に真のモデルがモデルセット内にあると仮定しますか (シュワルツの派生はこれらの条件を指定しました。)...答え...いいえ。つまり、BIC(特定のベイズ積分の近似の基礎として)は、導出の基礎となるモデルが真であると仮定せずに導出できます(たとえば、Cavanaugh and Neath 1999; Burnham and Anderson 2002:293-5を参照)。確かに、BICを適用する際に、モデルセットに完全な現実を表す(存在しない)真のモデルを含める必要はありません。さらに、BICで選択されたモデルのtargbetモデルへの収束(iidサンプルの理想化のもとで)は、そのターゲットモデルが真のデータ生成分布でなければならないことを論理的に意味しません)。 ですから、このテーマについて議論したり、(もっと必要な場合は)何らかの説明をする価値があると思います。現在、私たちが持っているのは、AICとBICの違いに関して非常に高く評価された回答の下での@ gui11aumeからのコメントです(ありがとう!)。

4
ジョージ・ボックス、ガリット・シュムエリと科学的方法について?
(この質問はPhilosophy SEにより適しているように思われるかもしれません。統計学者がBoxとShmueliの発言についての私の誤解を明確にすることを望んでいます。したがって、ここに投稿します)。 (ARIMAの名声の)ジョージボックスは次のように述べています。 「すべてのモデルは間違っていますが、一部は有用です。」 Galit Shmueliは有名な論文「説明するか予測する」で次のように主張しています(そして彼女に同意する他の人を引用しています)。 説明と予測は同じではなく、一部のモデルは予測が上手ではありませんが、上手く説明できます。 原則に対するこれらは何らかの形で矛盾していると感じます。 モデルがうまく予測できない場合、それは有用ですか? さらに重要なことは、モデルが十分に説明している場合(ただし、必ずしも十分に予測できるとは限らない場合)、何らかの方法で真でなければなりません(つまり、間違っていない)。それでは、Boxの「すべてのモデルが間違っている」とどのようにメッシュするのでしょうか。 最後に、モデルがうまく説明しているが、うまく予測できない場合、それはどのように科学的ですか?ほとんどの科学的境界基準(検証主義、改ざん主義など)は、科学的記述に予測力が必要であること、または口語的であることを意味します。将来の結果を予測する必要があります。 私の質問: Boxの声明とShmueliのアイデアは本当に矛盾していますか、それとも何かが欠けていますか。たとえば、予測力のないモデルはまだ有用でしょうか。 ボックスとShmueliの文がある場合ではない矛盾し、それはモデルが間違っているために何を意味するのでしょうし、うまく予測できないが、それでも説明力を持っていますか?別の言い方をすれば、正確さと予測能力の両方を奪うと、モデルには何が残りますか? モデルに説明力があるが予測力がない場合、どのような実証的検証が可能ですか?Shmueliは、説明にAICを使用し、予測にBICを使用するなどのことを言及していますが、それが問題をどのように解決するかわかりません。予測モデルでは、AIC、またはBIC、またはR2R2R^2またはL1L1L1正則化などを使用できますが、最終的にはサンプルテストと実稼働環境でのパフォーマンスがモデルの品質を決定します。しかし、うまく説明できるモデルについては、どのような損失関数がモデルを本当に評価できるのかわかりません。科学哲学には、過少決定の概念がありますこれはここで適切と思われます:与えられたデータセットについて、データに適合するようにいつでも何らかの分布(または分布の混合)と損失関数LLLを賢明に選択できます(したがって、それを説明すると主張できます)。また、閾値は、そのLLLモデルが適切にデータを任意で説明することを主張する人のための下でなければならない(種類p値などから、なぜそれはp&lt;0.05p&lt;0.05p < 0.05としないp&lt;0.1p&lt;0.1p < 0.1又はp&lt;0.01p&lt;0.01p < 0.01?)。 上記に基づいて、どのように説明するモデルを客観的に検証できますか?


1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model&lt;-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
AIC、BIC、GCV:ペナルティ付き回帰法で決定を下すのに最適なものは何ですか?
私の一般的な理解は、AICがモデルの適合度とモデルの複雑さの間のトレードオフを扱うことです。 A IC= 2 k − 2 l n (L )A私C=2k−2ln(L)AIC =2k -2ln(L) =モデル内のパラメーターの数kkk =尤度LLL ベイジアン情報基準BICは、AICと密接に関連しています。AICは、BICよりも少ない数のパラメーターにペナルティを科します。これらの2つは歴史的にどこでも使用されていることがわかります。しかし、一般化された相互検証(GCV)は私にとって新しいものです。GCVとBICまたはAICの関係 リッジのようなパネル化された回帰のペナルティ用語の選択で、これらの基準が一緒にまたは別々にどのように使用されますか? 編集: ここに考えて議論する例があります: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p &lt;- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out &lt;- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …

1
AIC / BIC:順列は何個のパラメーターをカウントしますか?
モデル選択の問題があり、AICまたはBICを使用してモデルを評価しようとしているとします。これは、の実数値パラメーターを持つモデルの場合、簡単です。kkk しかし、モデルの1つ(たとえばMallowsモデル)に順列があり、実際の値のパラメーターではなく、実際の値のパラメーターがいくつかある場合はどうでしょうか。モデルパラメーターの尤度を最大化することもできます。たとえば、置換とパラメーター取得します。ただし、はAIC / BICの計算にカウントされますか?ππ\pipppππ\pi

2
BICを使用してKMEANSのkの数を推定する
現在、おもちゃのデータセット(ofc iris(:))のBICを計算しようとしています。ここに示すように結果を再現したいです(図5)。 これには2つの問題があります。 表記: n私n私n_i =クラスターの要素数私私i C私C私C_i =クラスター中心座標私私i バツjバツjx_j =クラスター iに割り当てられたデータポイント私私i mmm =クラスターの数 1)式で定義された分散 (2): ∑私= 1n私− m∑j = 1n私∥ Xj− C私∥2∑私=1n私−m∑j=1n私‖バツj−C私‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 私が見る限り、クラスター内の要素よりもクラスターmmmが多い場合、分散が負になる可能性があることは問題であり、カバーされません。これは正しいです? 2)正しいBICを計算するためにコードを機能させることができません。うまくいけばエラーはありませんが、誰かが確認できれば幸いです。方程式全体は式で見つけることができます。(5)論文の中。私はscikit learnを使用して、すべてを(キーワード:Pを正当化するために)使用しています。 from sklearn import cluster from scipy.spatial import distance import sklearn.datasets from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.