モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)


18

Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、

  1. AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。
  2. 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。lnn>2
  3. 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。

ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。

質問:

  1. ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか?
  2. ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

2
パラドックス/矛盾はありません。AICは効率的であり(予想される予測誤差を漸近的に最小化)、BICは一貫しています(漸近的に真の順序を選択します)。ポイント3)は、バイアスが分散によって圧倒される可能性があると述べています。特定のサンプルで、一方が他方より優れているという保証はありません。したがって、あなたの「パラドックス」は、与えられたサンプルに対して、AICが予測に最適でない可能性があるように見えますが、これは驚くことではありません。Q2の場合:BICの小さいモデルによって引き起こされるバイアスの増加が、AICの大きいモデルの分散の増加よりも大きい場合、AICの方が優れています。
hejseb

2
Nils HjortとGerda Claeskensによる「モデルの選択とモデルの平均化」の最初の章をご覧になることをお勧めします。
-hejseb

回答:


1

それらは同じ文脈でとられるべきではありません。ポイント1と2のコンテキストは異なります。AICとBICの両方について、最初に、どの数字のパラメーターの組み合わせが最良のインデックスを生成するかを調べます(単語インデックスを使用すると、一部の著者はてんかん発作を起こしますこのコンテキストで。それらを無視するか、辞書でインデックスを検索します。)ポイント2では、AICはよりリッチなモデルです。選択。つまり、AICとBICが同じパラメーター数のモデルを選択した場合、AICはBICよりも予測に優れているという主張があります。ただし、選択されたパラメーターモデルの数が少ない場合にBICが最大になると、逆のことが発生する可能性があります(ただし、保証はありません)。Sober(2002)は、AICは予測精度を測定し、BICは適合度を測定すると結論付けました。予測精度は、xの極値範囲外でyを予測することを意味します。外にいるとき、多くの場合、選択されたモデル内のより多くのパラメーターから最適なAICインデックスよりも、予測が弱いパラメーターがドロップされた最適でないAICの方が外挿値を予測しやすいでしょう。AICとMLが外挿エラーテストの必要性を排除しないことに注意してください。これはモデルの個別のテストです。これは、「トレーニング」セットから極値を差し控え、外挿された「トレーニング後」モデルと差し控えられたデータとの間の誤差を計算することで実行できます。

現在、BICは、xの範囲の極値内のy値のより少ないエラー予測子であると思われます。改善された適合度はしばしば回帰のバイアスの代償を伴います(外挿の場合)、そのバイアスを導入することにより誤差が減少します。これは、例えば、平均的な左対右のの符号を分割するために、しばしば勾配を平らにしますfバツy残差(一方の側でより多くの負の残差、もう一方の側でより多くの正の残差を考える)により、総誤差が減少します。したがって、この場合、x値が与えられた場合に最適なy値を求め、AICの場合はxとyの間の最適な関数関係をより厳密に求めます。これらの違いの1つは、たとえば、BIC(他のパラメーター選択が等しい)はモデルとデータの間の相関係数が高く、AICは特定の外挿されたx値のy値誤差として測定される外挿誤差が優れていることです。

ポイント3は、ある条件下では時々声明です

  • データが非常にノイズの多い場合(大きい)。σ

  • 除外されたパラメーターの真の絶対値(この
    例では)が小さい場合。β2

  • 予測子の相関が高い場合; そして

  • サンプルサイズが小さい場合、または除外された変数の範囲が小さい場合。

実際には、方程式の正しい形式は、それを使用してフィッティングすると、ノイズのために正しいパラメーター値が得られることを意味せず、ノイズが多いほど楽になります。同じことは、Rと調整されたRおよび高い共線性でも起こります。つまり、パラメーターを追加すると、調整されたR低下し、Rが向上することがあります。 2222

私はこれらの声明が楽観的であることを指摘することを急ぐでしょう。通常、モデルは間違っており、多くの場合、より良いモデルはAICまたはBICで使用できない規範を実施するか、アプリケーションに誤った残差構造が想定され、代替手段が必要です。私の仕事では、これが常に当てはまります。


1
あなたが質問に答えているかどうかわかりません。私は情報基準の一般的な制限を認識していますが、それは私が尋ねていることではありません。さらに、AICとBICのパラメーターの数が同じ場合、AICの方がBICよりも予測に優れているという主張は理解できません。代替モデルに同じ数のパラメーターがある場合、AICとBICの比較は最終的に尤度の比較になり、AICとBICの両方が同じ代替を選択します。また、より良いモデルがAICまたはBICで使用できない規範を実施するという意味を詳しく説明していただけますか?
リチャードハーディ

続き:尤度と自由度があれば、AICとBICを計算できます。
リチャードハーディ

@RichardHardy True:尤度と自由度があれば、AICとBICを計算できます。ただし、残差がスチューデントTであり、スチューデントTにAICとBICを使用していない場合、計算は準最適で誤解を招く可能性があります。スチューデントTとは異なり、ガンマ、ベータなど、MLが未公開になる可能性のある残差の分布があります。
Carl

明確化していただきありがとうございます!上記の質問に対する答えは非常にシンプルで一般的であるはずです。より具体的には、AICとBICの「ugい」ケースと失敗を含む必要はないと思います。それどころか、パラドックスが現実ではなく明らかになっている理由を説明できる、かなり基本的なケースがあるはずだと感じています。同時に、2番目の段落は反対方向に進むようです。それ自体では価値がないというわけではありませんが、ここでの本当の根本的な質問から私たちをそらすことができると思います。
リチャードハーディ

@RichardHardy多くの場合、実用的な質問はAICにとって扱いにくいものです。たとえば、異なる規範および/またはデータ変換と同じまたは異なるモデルの比較、または複雑な規範の分析、たとえば、派生パラメーターのティホノフ正則化のエラー、一般的な逆数など。これは誰かがAICを使用しないように言及する必要がある、BICが正しくありません。
カール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.