AICまたはBICを他よりも好む理由はありますか?


222

AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?


1
この議論を「機能」選択または「共変量」選択と呼ぶ方が適切だと思います。私にとって、モデルの選択は、誤差の分布、リンク関数の形式、共変量の形式の指定を含む、はるかに広範なものです。AIC / BICについて話すとき、通常、共変量の選択を除いて、モデル構築のすべての側面が固定されている状況にあります。

6
モデルに含める特定の共変量を決定することは、一般にモデル選択という用語で決まります。タイトルにモデル選択のある本が多数あり、主にモデルに含めるモデル共変量/パラメーターを決定しています。
マイケルチャーニック

あなたの質問は、系統(バイオインフォマティクス)に特異的に適用されるかどうかは知りませんが、もしそうなら、この研究では、この点についていくつかの考えを提供することができます:ncbi.nlm.nih.gov/pmc/articles/PMC2925852を
tlorin

マージされた質問は、KICについても質問します。質問テキストを更新し、KICの定義を記載してください。
SMCI

1
@smci私が追加したstats.stackexchange.com/questions/383923/...を人々が興味を持っている場合KICに関連する質問に掘ることができるように。
ラッセルピアス

回答:


179

あなたの質問は、AICとBICが同じ質問に答えようとしていることを意味しますが、これは真実ではありません。AICは、未知の高次元の現実を最も適切に記述するモデルを選択しようとします。これは、現実が考慮されている候補モデルのセットに決して含まれないことを意味します。それどころか、BICは候補のセットの中からTRUEモデルを見つけようとします。研究者が途中で構築したモデルの1つで現実がインスタンス化されるという仮定は非常に奇妙です。これは、BICにとって本当の問題です。

それにもかかわらず、モデル回復シミュレーションを引数として使用して、BICがAICより優れていると言う多くの研究者がいます。これらのシミュレーションは、モデルAとBからデータを生成し、両方のデータセットを2つのモデルに適合させることで構成されます。オーバーフィットは、間違ったモデルが生成よりもデータによく適合する場合に発生します。これらのシミュレーションのポイントは、AICとBICがこれらのオーバーフィットをどの程度修正するかを確認することです。通常、結果は、AICがあまりにもリベラルであり、依然として単純で真のモデルよりも、より複雑で誤ったモデルを好むという事実を示しています。一見、これらのシミュレーションは本当に良い議論のように思えますが、それらの問題は、AICにとって無意味であるということです。前に言ったように、AICは、テストされている候補モデルのいずれかが実際に真実であるとは考えていません。AICによると、すべてのモデルは現実の近似であり、そして現実は決して低次元であってはなりません。少なくともいくつかの候補モデルよりも低い。

私の推奨事項は、AICとBICの両方を使用することです。ほとんどの場合、彼らは優先モデルに同意しますが、同意しない場合は報告するだけです。

AICとBICの両方に不満があり、投資の自由時間があれば、AICとBICの制限を克服するまったく異なるアプローチである最小記述長(MDL)を調べてください。正規化された最尤法やフィッシャー情報近似など、MDLに由来するいくつかの指標があります。MDLの問題は、数学的に要求が厳しい、および/または計算量が多いことです。

それでも、単純なソリューションに固執したい場合は、モデルの柔軟性を評価するための良い方法(特にパラメーターの数が等しい場合、AICとBICが役に立たない場合)は、実装が非常に簡単なパラメトリックブートストラップを行うことです。ここに論文へのリンクがあります。

ここで、一部の人々は相互検証の使用を提唱しています。私は個人的にそれを使用しましたが、それに反対するものは何もありませんが、問題は、サンプルカットルール(leave-one-out、K-foldなど)の選択が原則外であるということです。


7
差は純粋に数学的な観点から見ることができる- BICログPの漸近展開のように導出された真のモデルパラメータが任意のどこにも先立って消失しないに応じてサンプリングされ(データ)は、AICは、同様に固定保持された真のパラメータを用いて誘導された
ヤロスラフBulatov

4
「モデル回復シミュレーションを引数として使用して、BICがAICより優れていると言う研究者がたくさんいます。これらのシミュレーションは、モデルAとBからデータを生成し、両方のデータセットを2つのモデルに適合させることで構成されます」いくつかの参照を指すほど親切になりますか。私はそれらに興味があります!:)
deps_stats

2
この投稿の内容は信じられません。
user9352

16
(-1)すばらしい説明ですが、私は主張に挑戦したいと思います。@Dave Kellen TRUEモデルがBICのセットのどこにあるべきかという考えをどこに参照してください。この本で著者がこれが事実ではないという説得力のある証拠を与えるので、私はこれについて調査したいと思います。
gui11aume

2
すばらしい答えですが、「現実には決して低次元性があってはならない」という文には強く反対します。これは、yoruモデルをどの「科学」に適用するかによって異なります
David

76

AICとBICはどちらも最尤推定によるものであり、過剰適合に対抗するために無料のパラメーターにペナルティを科しますが、動作が大きく異なる方法でそうします。メソッドの一般的に提示されたバージョンの1つを見てみましょう(これは、正規分布エラーとその他の適切に動作する仮定を規定する結果です)。

  • AIC = -2 * ln(尤度)+ 2 * k、

そして

  • BIC = -2 * ln(尤度)+ ln(N)* k、

どこ:

  • k =モデルの自由度
  • N =観測数

比較されたグループ内の最良のモデルは、どちらの場合もこれらのスコアを最小化するものです。明らかに、AICはサンプルサイズに直接依存しません。さらに、一般的に言えば、AICはオーバーフィットの危険性を示しますが、BICは単に自由パラメーターにペナルティを科すという理由で、アンダーフィットの危険性を示します(AICでは2 * k、BICではln(N)* k)。通時的に、データが導入されてスコアが再計算されると、比較的低いN(7以下)でBICはAICよりも自由パラメーターの許容度が高くなりますが、Nが高いほど許容度は低くなります(Nの自然対数が2を超えるため)。

さらに、AICは、未知のデータ生成プロセスに最適な近似モデルを見つけることを目的としています(予想される推定KL発散を最小化することにより)。そのため、確率で真のモデルに収束できません(評価されたグループにモデルが存在すると仮定)が、BICはNが無限大になる傾向があるため収束します。

したがって、多くの方法論的な質問のように、優先されるのは、あなたがしようとしていること、他の方法が利用可能であること、および概説された機能(収束、自由パラメータの相対的な許容、予想されるKLの発散の最小化)、あなたの目標を話します。


8
素敵な答え。AICとBICの代替案は、A​​ICが、「スプリアスエフェクト」がサンプルサイズの増加に応じて検出しにくくなること(または、スプリアスエフェクトがモデルに入るかどうかは気にしません)であると言うことです。そのt統計がより大きければ効果がAICに(すなわち、より大きなモデルが好ま)約「重要」になり、ラフテリーの1994年論文のようにOLSの視点から見ることができますそのt統計量であれば、BICより大きい | t| >|t|>2|t|>log(n)
確率は

2
いい答え、+ 1。評価したグループに実際のモデルが実際に存在するかどうかについての警告が特に好きです。「真のモデル」は決して存在しないと私は主張します。(Box&Draperは「すべてのモデルは間違っているが、一部は有用である」と述べ、Burnham&Andersonはこれを「テーパ効果サイズ」と呼んでいます)。実際に見たモデルの中で最も近い近似値で。
ステファンKolassa

68

私の簡単な説明は

  • AICは、クロス検証と漸近的に同等であるため、予測に最適です。
  • BICは、基礎となるデータ生成プロセスの一貫した推定を可能にするため、説明に最適です。

AICはK-fold交差検定に相当し、BICはleve-one-out交差検定に相当します。それでも、両方の定理は線形回帰の場合にのみ有効です。

5
mbq、それはAIC / LOO(LKOまたはKフォールドではない)であり、Stone 1977の証明が線形モデルに依存しているとは思わない。BICの結果の詳細がわかりません。
アルス

11
arsは正しいです。AIC = LOOおよびBIC = K-foldです。ここで、Kはサンプルサイズの複雑な関数です。
ロブハインドマン

おめでとうございます、あなたは私を持っています。私はそれを急いで書いていたので、このエラーを犯しました。明らかにそれはロブが書いた方法です。これは、モデルが線形であるという仮定があったShao 1995からのものです。私はストーンを分析しますが、私の分野のLOOはさまざまな* ICと同じように悪い評判があるので、あなたは正しいと思うかもしれません。

ウィキペディア(en.wikipedia.org/wiki/…)の説明から、Kフォールドの交差検証は、パラメーターの安定性を推定するための繰り返しシミュレーションのようなものに思えます。AOOがLOOで安定すると予想される理由はわかります(LOOを徹底的に行うことができるため)が、Kも網羅的でない限り、なぜBICがK-foldで安定するのか理解できません。Kの値の根底にある複雑な式は網羅的ですか?それとも他に何かが起こっていますか?
ラッセルピアス

16

私の経験では、予測的差別を最大化することが目標である場合、BICは深刻な不足につながり、AICは通常うまく機能します。


1
非常に遅れていますが、これはまだGoogleで上位にランクされているので、どの分野で働いているのかを詳しく説明しても構いませんか?私たちが見なければならない領域の効果があるかどうか、私はちょうど興味があります。
verybadatthis

@verybadatthis:臨床生物統計学(グーグル「フランク・ハレル」、彼はウェブ上にいる)
ベン・ボルカー

13

ブライアンリプリーによるAICおよびBICの有益でアクセス可能な「派生」は、http//www.stats.ox.ac.uk/~ripley/Nelder80.pdfにあります。

リプリーは、数学的な結果の背後にある仮定についていくつかの意見を述べています。リプリーは、他のいくつかの答えが示すものとは反対に、AICはモデルが真であると仮定することに基づいていることを強調しています。モデルが正しくない場合、一般的な計算により、「パラメーターの数」をより複雑な量に置き換える必要があることがわかります。Ripleysのスライドにはいくつかの参考文献があります。ただし、線形回帰(厳密には既知の分散を使用)の場合、一般に、より複雑な量はパラメーターの数に等しくなるように単純化されることに注意してください。


3
(+1)しかし、Ripleyは、モデルをネストする必要があると言っている点では間違っています。赤池の元の導出、または、より明確に、カルバック・ライブラー発散の推定量としてAICを使用する導出には、このような制約はありません。実際、私が取り組んでいる論文では、AICが共分散構造(異なる数のパラメーター、明らかにネストされていないモデル)のモデル選択にも使用できることを「経験的に」示しています。異なる共分散構造で実行した時系列の数千のシミュレーションから、それらのいずれでもAICが間違っていることはありません
...-ネスター

...実際に「正しい」モデルが一連のモデルにある場合(ただし、これは、作業中のモデルについては、推定量の分散が非常に小さいことも意味します...詳細)。
ネスター

1
@ネストル、同意します。ネストされているモデルについてのポイントは奇妙です。
NRH

3
縦断データ(混合効果モデルまたは一般化最小二乗法)の共分散構造を選択する場合、3つ以上の候補構造がある場合、AICは間違った構造を簡単に見つけることができます。3つ以上ある場合は、ブートストラップまたは他の手段を使用して、AICを使用して構造を選択することによって生じるモデルの不確実性を調整する必要があります。
フランクハレル

8

実際、唯一の違いは、BICはAICがオブジェクト(サンプル)の数を考慮して拡張されていることです。両方とも非常に弱いですが(たとえば、相互検証と比較して)AICを使用する方が、略語に慣れるよりも多くの人よりも優れていると言えます。使用されます(そのような基準が単に機能しない問題に偏っていることは認めますが)。

編集:AICとBICは、2つの重要な仮定が提供される相互検証と同等です-定義されている場合、モデルが最尤法である場合、およびトレーニングデータのモデルパフォーマンスのみに関心がある場合。一部のデータを何らかのコンセンサスにまとめる場合、それらは完全に大丈夫です。
現実世界の問題の予測マシンを作成する場合、最初の問題は間違っています。トレーニングセットは、扱っている問題に関する情報の断片のみを表しているため、モデルを最適化することはできません。2番目はfalseです。これは、トレーニングセットが代表的であるとは予想できない新しいデータをモデルが処理することを期待しているためです。そして、この目的のためにCVが発明されました。独立したデータに直面したときのモデルの動作をシミュレートします。モデル選択の場合、CVは品質近似だけでなく品質近似分布も提供するため、「新しいデータが何であろうと、どちらでもよいのかわかりません」と言えるこの大きな利点があります。より良い。」


つまり、特定のサンプルサイズでは、BICはAICよりも厳しくないかもしれません。
ラッセルピアス

1
ここでは、厳密という言葉は最良の言葉ではなく、むしろパラメーターに対してより寛容です。それでも、共通の定義(自然対数)の場合は、7個以下のオブジェクトで発生します。

AICは、クロス検証と漸近的に等価です。
ロブハインドマン

5
@mbq-相互検証が「非代表性」問題をどのように克服するかわかりません。トレーニングデータが将来受け取るデータを代表していない場合は、必要なものすべてを相互検証できますが、実際に直面している「一般化エラー」を代表しません(「 true」の新しいデータは、トレーニングデータのモデル化されていない部分では表されません)。適切な予測を行うには、代表的なデータセットを取得することが不可欠です。
確率論的

1
@mbq-私のポイントは、問題を解決しない代替案に基づいてICベースの選択を「厳しく拒否する」ように見えることです。クロスバリデーションは優れていますが(計算に値しますか?)、データ駆動型プロセスを使用して代表的でないデータを処理することはできません。少なくとも信頼できない。それがどのように非代表的であるか(またはより一般的には、「非代表的」なデータが実際の将来のデータとどのような論理的関係を持っているか)を示す事前情報が必要です。
確率論的

5

既に述べたように、AICとBICは、より多くのリグレッサー変数を持つためにモデルにペナルティを科す方法です。これらのメソッドでは、ペナルティ関数が使用されます。これは、モデル内のパラメーターの数の関数です。

  • AICを適用する場合、ペナルティ関数はz(p) = 2 pです。

  • BICを適用する場合、ペナルティ関数はz(p) = p ln(n)です。これは、ペナルティを事前情報から派生したものとして解釈することに基づいています(したがって、ベイジアン情報基準という名前です)。

nが大きい場合、2つのモデルはまったく異なる結果を生成します。その後、BICは複雑なモデルにはるかに大きなペナルティを適用するため、AICよりも単純なモデルになります。ただし、WikipediaのBICで述べられているように:

多くのアプリケーションでは、パラメータの数が対象のモデルで等しいため、BICは単純に最尤選択に減少することに注意してください。


4
寸法が変わらない場合、AICもMLと同等であることに注意してください。あなたの答えは、これがBIC専用であるように思われます。
確率論的

5

私が言えることから、AICとBICの間に大きな違いはありません。これらは両方とも、モデルを効率的に比較するために行うことができる数学的に便利な近似です。それらが異なる「最良」モデルを提供する場合、おそらくモデルの不確実性が高いことを意味します。これは、AICを使用するかBICを使用するかよりも心配することが重要です。私は個人的にBICが好きです)主題について学ぶ時間。私には、これは直感的なことのように思えます。しかし、その単純な形式を考えると、AICについても同様に直感的で説得力のある議論が存在することは確かです。

これで、近似値を作成するときはいつでも、それらの近似値がごみである場合、いくつかの条件が必ずあります。これは、元の近似を悪くする特定の条件を説明するために多くの「調整」(AICc)が存在するAICで確かに見ることができます。これはBellにも存在します。これは、Zellnerのg-priorの混合物に対する完全ラプラス近似(BICは積分のラプラス近似法の近似)など、他のさまざまなより正確な(しかしまだ効率的な)方法が存在するためです。

両方ともがらくたの1つの場所は、特定のモデル内のパラメーターに関する実質的な事前情報がある場合です。AICおよびBICは、データからパラメーターを推定する必要があるモデルと比較して、パラメーターが部分的に既知であるモデルに不必要にペナルティを科します。

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

そして、同じ確率モデル(同じパラメーター、同じデータ、同じ近似値など)を割り当て続けると、同じBIC値のセットが取得されます。「真のモデル」(「真の宗教」のエコー)についての無関係な質問に引き込まれるのは、論理文字「M」にある種のユニークな意味を付けることだけです。Mを「定義」する唯一のものは、計算で使用する数学方程式です。これは、1つだけの定義を選択することはほとんどありません。Mについても同様に予測命題を入れることができます(「i番目のモデルが最良の予測を提供します」)。私は個人的にはこれがどのように可能性を変えるか、したがってBICがどれほど良いか悪いかを見ることができません(AICも同様です-AICは異なる派生に基づいていますが)

さらに、ステートメントの何が問題なのか、真のモデルが検討中のセットに含まれている場合、モデルBである確率は57%です。私には十分に合理的であるように見えます。または、より「ソフト」なバージョンを使用することもできます。モデルBが検討中のセットの中で最高である確率は57%です

最後のコメント:AIC / BICについて知っている人がいるのと同じくらい多くの意見があると思います。


4

AICは実際には漸近的にのみ有効であるため、めったに使用しないでください。それはほとんど常により良い(とAIC AICCを使用することですCの有限のサンプルサイズのためorrection)。AICはオーバーパラメーター化する傾向があります。AICcを使用すると、この問題は大幅に軽減されます。AICcを使用する場合の主な例外は、基礎となる分布が非常にレプトクルティックである場合です。これについての詳細は、バーナム&アンダーソン著のモデル選択を参照してください。


1
つまり、AICはパラメーターのモデルを十分に処罰していないため、それを基準として使用するとパラメーターが過剰になる可能性があります。代わりにAICcの使用をお勧めします。これを私の最初の質問の文脈に戻すと、BICはすでにAICよりも厳しいので、BICではなくAICcを使用する理由はありますか?
ラッセルピアス

1
AICの意味は漸近的に有効です。ジョン・テイラーが指摘したように、AICは一貫性がありません。AICとBICを対比させた彼の主張は最高のものだと思います。この2つが相互検証と同じであるとは思えません。それらはすべて、変数の最大数より少ないモデルで通常ピークになるという素晴らしい特性を持っています。しかし、それらはすべて異なるモデルを選択できます。
マイケルチャーニック

4

AICとBICは、モデルを比較するための情報基準です。それぞれがモデルの適合と節約のバランスをとろうとし、それぞれがパラメーターの数に対して異なるペナルティを課します。

AICは赤池情報量基準、式は ここで、はパラメーターの数、は最尤法です。この式では、小さいほど良いです。(いくつかのプログラムは反対の出力したことを思い出しますが、詳細は覚えていません)k L 2 ln L 2 k

AIC=2k2ln(L)
kL2ln(L)2k

BICはベイジアン情報量基準であり、式は あり、AICよりもpar約的なモデルを優先します。

BIC=kln(n)2ln(L)

KICについて聞いたことがありません。


KICについても聞いたことはありませんが、AICとBICについてはリンクされた質問を見るか、AICを検索してください。stats.stackexchange.com/q/577/442
ヘンリック

1
(この返信は、「KIC」の解釈も求めた重複した質問からマージされました。)
whuber

3
AICまたはBICと比較するために、モデルをネストする必要はありません。
マクロ

1

非常に簡単に:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=サンプルサイズ(Shao 1997)。BICには多くの異なるバージョンがありますが、それらは限界尤度の異なる近似を行うか、異なる事前確率を仮定することになります。たとえば、元のBICのようにすべての可能なモデルの事前ユニフォームを使用する代わりに、EBICは固定サイズのモデルの事前ユニフォームを使用します(Chen&Chen 2008。BICqは、含まれる各パラメーターの事前確率を指定するベルヌーイ分布を使用します

lambda=2lambda=log(n)、1つの目的(LASSOまたはエラスティックネット回帰)を最適化した後、他の目的(クロス検証予測エラー、AICまたはBICを最小化するなど)に基づいて正則化パラメーターを調整します。

n1n

LOOCVエラーは、実際にクロス検証を実行する必要なく、残差とハットマトリックスの対角線から分析的計算することもできます。これは、LOOCVエラーの漸近近似として、常にAICの代替となります。

参照資料

Stone M.(1977)交差検定と赤池の基準によるモデル選択の漸近的等価。Journal of the Royal Statistical SocietyシリーズB. 39、44–7。

Shao J.(1997)線形モデル選択のための漸近理論。Statistica Sinica 7、221-242。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.