AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?
AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?
回答:
あなたの質問は、AICとBICが同じ質問に答えようとしていることを意味しますが、これは真実ではありません。AICは、未知の高次元の現実を最も適切に記述するモデルを選択しようとします。これは、現実が考慮されている候補モデルのセットに決して含まれないことを意味します。それどころか、BICは候補のセットの中からTRUEモデルを見つけようとします。研究者が途中で構築したモデルの1つで現実がインスタンス化されるという仮定は非常に奇妙です。これは、BICにとって本当の問題です。
それにもかかわらず、モデル回復シミュレーションを引数として使用して、BICがAICより優れていると言う多くの研究者がいます。これらのシミュレーションは、モデルAとBからデータを生成し、両方のデータセットを2つのモデルに適合させることで構成されます。オーバーフィットは、間違ったモデルが生成よりもデータによく適合する場合に発生します。これらのシミュレーションのポイントは、AICとBICがこれらのオーバーフィットをどの程度修正するかを確認することです。通常、結果は、AICがあまりにもリベラルであり、依然として単純で真のモデルよりも、より複雑で誤ったモデルを好むという事実を示しています。一見、これらのシミュレーションは本当に良い議論のように思えますが、それらの問題は、AICにとって無意味であるということです。前に言ったように、AICは、テストされている候補モデルのいずれかが実際に真実であるとは考えていません。AICによると、すべてのモデルは現実の近似であり、そして現実は決して低次元であってはなりません。少なくともいくつかの候補モデルよりも低い。
私の推奨事項は、AICとBICの両方を使用することです。ほとんどの場合、彼らは優先モデルに同意しますが、同意しない場合は報告するだけです。
AICとBICの両方に不満があり、投資の自由時間があれば、AICとBICの制限を克服するまったく異なるアプローチである最小記述長(MDL)を調べてください。正規化された最尤法やフィッシャー情報近似など、MDLに由来するいくつかの指標があります。MDLの問題は、数学的に要求が厳しい、および/または計算量が多いことです。
それでも、単純なソリューションに固執したい場合は、モデルの柔軟性を評価するための良い方法(特にパラメーターの数が等しい場合、AICとBICが役に立たない場合)は、実装が非常に簡単なパラメトリックブートストラップを行うことです。ここに論文へのリンクがあります。
ここで、一部の人々は相互検証の使用を提唱しています。私は個人的にそれを使用しましたが、それに反対するものは何もありませんが、問題は、サンプルカットルール(leave-one-out、K-foldなど)の選択が原則外であるということです。
AICとBICはどちらも最尤推定によるものであり、過剰適合に対抗するために無料のパラメーターにペナルティを科しますが、動作が大きく異なる方法でそうします。メソッドの一般的に提示されたバージョンの1つを見てみましょう(これは、正規分布エラーとその他の適切に動作する仮定を規定する結果です)。
そして
どこ:
比較されたグループ内の最良のモデルは、どちらの場合もこれらのスコアを最小化するものです。明らかに、AICはサンプルサイズに直接依存しません。さらに、一般的に言えば、AICはオーバーフィットの危険性を示しますが、BICは単に自由パラメーターにペナルティを科すという理由で、アンダーフィットの危険性を示します(AICでは2 * k、BICではln(N)* k)。通時的に、データが導入されてスコアが再計算されると、比較的低いN(7以下)でBICはAICよりも自由パラメーターの許容度が高くなりますが、Nが高いほど許容度は低くなります(Nの自然対数が2を超えるため)。
さらに、AICは、未知のデータ生成プロセスに最適な近似モデルを見つけることを目的としています(予想される推定KL発散を最小化することにより)。そのため、確率で真のモデルに収束できません(評価されたグループにモデルが存在すると仮定)が、BICはNが無限大になる傾向があるため収束します。
したがって、多くの方法論的な質問のように、優先されるのは、あなたがしようとしていること、他の方法が利用可能であること、および概説された機能(収束、自由パラメータの相対的な許容、予想されるKLの発散の最小化)、あなたの目標を話します。
私の簡単な説明は
私の経験では、予測的差別を最大化することが目標である場合、BICは深刻な不足につながり、AICは通常うまく機能します。
ブライアンリプリーによるAICおよびBICの有益でアクセス可能な「派生」は、http: //www.stats.ox.ac.uk/~ripley/Nelder80.pdfにあります。
リプリーは、数学的な結果の背後にある仮定についていくつかの意見を述べています。リプリーは、他のいくつかの答えが示すものとは反対に、AICはモデルが真であると仮定することに基づいていることを強調しています。モデルが正しくない場合、一般的な計算により、「パラメーターの数」をより複雑な量に置き換える必要があることがわかります。Ripleysのスライドにはいくつかの参考文献があります。ただし、線形回帰(厳密には既知の分散を使用)の場合、一般に、より複雑な量はパラメーターの数に等しくなるように単純化されることに注意してください。
実際、唯一の違いは、BICはAICがオブジェクト(サンプル)の数を考慮して拡張されていることです。両方とも非常に弱いですが(たとえば、相互検証と比較して)AICを使用する方が、略語に慣れるよりも多くの人よりも優れていると言えます。使用されます(そのような基準が単に機能しない問題に偏っていることは認めますが)。
編集:AICとBICは、2つの重要な仮定が提供される相互検証と同等です-定義されている場合、モデルが最尤法である場合、およびトレーニングデータのモデルパフォーマンスのみに関心がある場合。一部のデータを何らかのコンセンサスにまとめる場合、それらは完全に大丈夫です。
現実世界の問題の予測マシンを作成する場合、最初の問題は間違っています。トレーニングセットは、扱っている問題に関する情報の断片のみを表しているため、モデルを最適化することはできません。2番目はfalseです。これは、トレーニングセットが代表的であるとは予想できない新しいデータをモデルが処理することを期待しているためです。そして、この目的のためにCVが発明されました。独立したデータに直面したときのモデルの動作をシミュレートします。モデル選択の場合、CVは品質近似だけでなく品質近似分布も提供するため、「新しいデータが何であろうと、どちらでもよいのかわかりません」と言えるこの大きな利点があります。より良い。」
既に述べたように、AICとBICは、より多くのリグレッサー変数を持つためにモデルにペナルティを科す方法です。これらのメソッドでは、ペナルティ関数が使用されます。これは、モデル内のパラメーターの数の関数です。
AICを適用する場合、ペナルティ関数はz(p) = 2 pです。
BICを適用する場合、ペナルティ関数はz(p) = p ln(n)です。これは、ペナルティを事前情報から派生したものとして解釈することに基づいています(したがって、ベイジアン情報基準という名前です)。
nが大きい場合、2つのモデルはまったく異なる結果を生成します。その後、BICは複雑なモデルにはるかに大きなペナルティを適用するため、AICよりも単純なモデルになります。ただし、WikipediaのBICで述べられているように:
多くのアプリケーションでは、パラメータの数が対象のモデルで等しいため、BICは単純に最尤選択に減少することに注意してください。
私が言えることから、AICとBICの間に大きな違いはありません。これらは両方とも、モデルを効率的に比較するために行うことができる数学的に便利な近似です。それらが異なる「最良」モデルを提供する場合、おそらくモデルの不確実性が高いことを意味します。これは、AICを使用するかBICを使用するかよりも心配することが重要です。私は個人的にBICが好きです)主題について学ぶ時間。私には、これは直感的なことのように思えます。しかし、その単純な形式を考えると、AICについても同様に直感的で説得力のある議論が存在することは確かです。
これで、近似値を作成するときはいつでも、それらの近似値がごみである場合、いくつかの条件が必ずあります。これは、元の近似を悪くする特定の条件を説明するために多くの「調整」(AICc)が存在するAICで確かに見ることができます。これはBellにも存在します。これは、Zellnerのg-priorの混合物に対する完全ラプラス近似(BICは積分のラプラス近似法の近似)など、他のさまざまなより正確な(しかしまだ効率的な)方法が存在するためです。
両方ともがらくたの1つの場所は、特定のモデル内のパラメーターに関する実質的な事前情報がある場合です。AICおよびBICは、データからパラメーターを推定する必要があるモデルと比較して、パラメーターが部分的に既知であるモデルに不必要にペナルティを科します。
そして、同じ確率モデル(同じパラメーター、同じデータ、同じ近似値など)を割り当て続けると、同じBIC値のセットが取得されます。「真のモデル」(「真の宗教」のエコー)についての無関係な質問に引き込まれるのは、論理文字「M」にある種のユニークな意味を付けることだけです。Mを「定義」する唯一のものは、計算で使用する数学方程式です。これは、1つだけの定義を選択することはほとんどありません。Mについても同様に予測命題を入れることができます(「i番目のモデルが最良の予測を提供します」)。私は個人的にはこれがどのように可能性を変えるか、したがってBICがどれほど良いか悪いかを見ることができません(AICも同様です-AICは異なる派生に基づいていますが)
さらに、ステートメントの何が問題なのか、真のモデルが検討中のセットに含まれている場合、モデルBである確率は57%です。私には十分に合理的であるように見えます。または、より「ソフト」なバージョンを使用することもできます。モデルBが検討中のセットの中で最高である確率は57%です
最後のコメント:AIC / BICについて知っている人がいるのと同じくらい多くの意見があると思います。
AICは実際には漸近的にのみ有効であるため、めったに使用しないでください。それはほとんど常により良い(とAIC AICCを使用することですCの有限のサンプルサイズのためorrection)。AICはオーバーパラメーター化する傾向があります。AICcを使用すると、この問題は大幅に軽減されます。AICcを使用する場合の主な例外は、基礎となる分布が非常にレプトクルティックである場合です。これについての詳細は、バーナム&アンダーソン著のモデル選択を参照してください。
AICとBICは、モデルを比較するための情報基準です。それぞれがモデルの適合と節約のバランスをとろうとし、それぞれがパラメーターの数に対して異なるペナルティを課します。
AICは赤池情報量基準、式は ここで、はパラメーターの数、は最尤法です。この式では、小さいほど良いです。(いくつかのプログラムは反対の出力したことを思い出しますが、詳細は覚えていません)k L 2 ln (L )− 2 k
BICはベイジアン情報量基準であり、式は あり、AICよりもpar約的なモデルを優先します。
KICについて聞いたことがありません。
非常に簡単に:
、1つの目的(LASSOまたはエラスティックネット回帰)を最適化した後、他の目的(クロス検証予測エラー、AICまたはBICを最小化するなど)に基づいて正則化パラメーターを調整します。
LOOCVエラーは、実際にクロス検証を実行する必要なく、残差とハットマトリックスの対角線から分析的に計算することもできます。これは、LOOCVエラーの漸近近似として、常にAICの代替となります。
参照資料
Stone M.(1977)交差検定と赤池の基準によるモデル選択の漸近的等価。Journal of the Royal Statistical SocietyシリーズB. 39、44–7。
Shao J.(1997)線形モデル選択のための漸近理論。Statistica Sinica 7、221-242。