AICに基づいてモデルを比較する方法は?


12

同じ方法を使用して対数尤度を計算する2つのモデルがあり、一方のAICは他方よりも低くなっています。ただし、AICが低い方の解釈ははるかに困難です。

難易度を紹介する価値があるかどうかを判断するのに苦労しており、AICの割合の差を使用してこれを判断しました。2つのAICの差はわずか0.7%であり、より複雑なモデルのAICは0.7%低いことがわかりました。

  1. 低いAICでモデルを使用することを避けるために、2つの間の低いパーセンテージの差は正当な理由ですか?

  2. 差異の割合は、それほど複雑ではないモデルでは0.7%の情報が失われることを説明していますか?

  3. 2つのモデルの結果は大きく異なる可能性がありますか?



2
@ArunJose、重複していないようです。ここでの質問はまったく異なります。
リチャードハーディ

1
いいえ。この質問は、モデルの比較可能性に関するものではありません。モデルが比較可能であることはすでにわかっています。この質問は、AICの重要な違いと見なされるものと、複雑さとモデルの適合とのトレードオフに関するものです。
アリトゥラブロティア16

回答:


24

一つは比較にならない絶対値(のように可能な2つのAICの1000000)、それら考慮差をΔ I = A I C I - A I C 、M I nは ここでA I C iがありますi番目のモデルのAIC 、およびA I C m i nは、検討されたモデルのセット(つまり、優先モデル)の中で得られる最低のAICです。経験則、例えば1001000000

Δi=AICiAICmin,
AICiiAICminBurnham&Anderson 2004は次のとおりです。
  1. もし、その後のための実質的なサポートがあるI番目のモデル(またはそれに対する証拠のみ裸言及する価値がある)、それが適切な記述であることを提案は非常に有望です。Δi<2i
  2. 場合、その後のための強力なサポートがあるI番目のモデルは、2<Δi<4i
  3. 場合、その後のためにかなり少ないサポートがI番目のモデルは、4<Δi<7i
  4. 持つモデル、本質的にはサポートしていません。Δi>10

ここで、質問で言及されている0.7%に関して、2つの状況を考えてみましょう。

  1. および A I C 2は0.7%大きくなります: A I C 2 = 100.7。次いで、 Δ 2 = 0.7 < 2そうモデルとの間の実質的な差はありません。AIC1=AICmin=100AIC2AIC2=100.7Δ2=0.7<2
  2. および A I C 2は0.7%大きくなります: A I C 2 = 100700。次いで、 Δ 2 = 700 » 図10は、 SO 2-NDモデルはサポートされていません。AIC1=AICmin=100000AIC2AIC2=100700Δ2=70010

したがって、のAICの差は0.7%であるということは提供していない任意の情報。

AIC値は対数尤度から来るスケーリング定数が含まれている 、そしてので、Δ 私は、そのような定数の自由です。一つは考えるかもしれませんΔを、私は = A I C I - A I C MをI nは力最良のモデルが持っていることを再スケーリング変換A I Cは、mは私をN= 0LΔiΔi=AICiAICminAICmin:=0

AICの定式化は、過剰な数のパラメーターの使用にペナルティを課すため、過剰適合を防止します。他のモデルが大幅に優れた適合性を提供しない限り、パラメーターの少ないモデルを優先します。AICは、実際に最も適切に説明しているモデル(検討中のモデルの中)を(検討中のデータの形で)選択しようとします。つまり、実際には、データの実際の記述であるモデルは考慮されません。AICは、どのモデルがデータをより適切に説明しているかの情報を提供し、解釈を提供しないことに注意してください。

個人的には、単純なモデルとはるかに低いAICを持つ複雑なモデルがある場合、単純なモデルでは十分ではないと言います。より複雑なモデルが本当にあるならばずっとより複雑しかし、巨大ではない(多分Δ I < 2、多分Δ I < 5 -特定の状況に依存します)、それはとの仕事には本当に簡単だ場合、私は単純なモデルに固執するだろう。ΔiΔi<2Δi<5

さらに、次の方法で番目のモデルに確率を割り当てることができます。i

pi=exp(Δi2),

これは、i番目のモデルがAICを最小化する相対確率(と比較)を提供します。例えば、Δはiが = 1.5に対応し、P iは = 0.47(非常に高い)、およびΔ iが = 15に対応し、P iは = 0.0005(非常に低いです)。最初のケースは、i番目のモデルが実際にA I C m iを生成したモデルよりも良い記述である可能性が47%あることを意味します。AICminiΔi=1.5pi=0.47Δi=15pi=0.0005i、2番目のケースでは、この確率はわずか0.05%です。AICmin

最後に、AICの式について:

AIC=2k2L,

同様の2つのモデルのときに留意することが重要である、考慮されるΔ 私はもっぱらによるパラメータの数に依存して2 k個の用語。したがって、ときΔ ILΔi2k、相対的改善が原因フィットの実際の改善にだけでなく、パラメータの数を増加させることです。Δi2Δk<1

TL; DR

  1. それは悪い理由です。AICの絶対値の差を使用します。
  2. 割合は何も言いません。
  3. モデル、データ、および異なる結果の意味に関する情報がないため、この質問に答えることはできません。

1
これは、この神秘的な問題について私が今まで見た中で最も明確な説明です。参照した記事(p。270-272)を調べましたが、ここでの説明は、記事が説明していることをシンプルかつ明確に、しかし非常に正確に表現したものです。
Tripartio

このフォローアップの質問に役立つかもしれませんか?stats.stackexchange.com/questions/349883/…–
Tripartio

0

すべてのモデルが間違っているため、一部は有用です。両方のモデルを提示することを妨げるものは何もありません。

読者に、どちらが目的に役立つかを判断させてください。


当サイトへようこそ。人々はこの発言にフラグを立てています。というのは、それがかなり重要だからです。質問に対応する回答に展開しますか、それとも削除しますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.