モデルの赤池情報量基準(AIC)スコアはどういう意味ですか?


34

私はここで素人の言葉で何を意味するかについていくつかの質問を見てきましたが、これらはここでの私の目的にはあまりにも素人です。AICスコアの意味を数学的に理解しようとしています。

しかし同時に、より重要なポイントを見ないようにする厳密な証拠は必要ありません。たとえば、これが微積分であれば、私は無限小に満足し、これが確率論であれば、測定理論なしに満足します。

私の試み

ここを読ん、自分自身のいくつかの表記シュガー、は、次のようにデータセットD上のモデル AIC基準です: \ text {AIC} _ {m、D} = 2k_m- 2 \ ln(L_ {m、D}) ここで、k_mはモデルmのパラメーターの数、L_ {m、D}はデータセットDのモデルmの最尤関数値です。 m D AIC m D = 2 k m2 ln L m Dk m m L m D m DAICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

上記が意味するものの私の理解はここにあります:

m=arg maxθPr(D|θ)

こちらです:

  • kmmのパラメーターの数ですm
  • Lm,D=Pr(D|m)=L(m|D)

AICを書き換えましょう:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

明らかに、Pr(D|m)はモデルmでデータセットDを観測する確率です。そのため、モデルmがデータセットDに適合するほど、\ Pr(D | m)は大きくなり、したがって用語-2 \ log_e(\ Pr(D | m))は小さくなります。DmmDPr(D|m)2loge(Pr(D|m))

したがって、明らかにAICは、データセットに適合するモデルに報酬を与えます(AICm,Dは小さいほど良いため)。

一方、2k_mという用語は、\ text {AIC} _ {m、D}を大きく2kmすることで、より多くのパラメーターを持つモデルを明らかに罰します。AICm,D

言い換えれば、AICは次のような尺度のようです。

  • 正確なモデル(Dにより適したモデル)に対数的に報酬を与えます。たとえば、フィットネスの0.8から0.9への増加よりも、フィットネスの0.4から0.50.5の増加のほうが多くなります。これを次の図に示します。0.80.9
  • パラメータの報酬の減少は直線的に。そのため、パラメーターをから減らすと、から減らした分だけ報酬が与えられます。8 2 19821

ここに画像の説明を入力してください

言い換えると、AICは単純さの重要性とフィットネスの重要性の間のトレードオフを定義します。

言い換えると、AICは次のことを示唆しているようです。

  • フィットネスの重要性は減少します。
  • しかし、シンプルさの重要性は決して減ることはなく、常に常に重要です。

Q1:しかし、質問は次のとおりです。なぜこの特定のフィットネスとシンプルさのトレードオフを気にする必要があるのでしょうか?

Q2:なぜでなぜか?なぜだけではないのですか: つまりはyビューでに対しても同様に有用異なるモデルを相対的に比較するのに役立つはずです(スケーリングされていないだけです;これが必要ですか?)。2 log eAIC m D = 2 k m2 ln L m D= 2 k mln L m DAIC m D2k2loge()AICmDSIMPLEAICmD2

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

Q3:これは情報理論とどのように関係していますか?誰かがこれを情報理論的な出発から導き出すことができますか?


2
何であなたの表記をする意味ですか?モデルの選択について何かを暗示していますか?上記の内容は、AICがモデルの選択を要求することを意味するものではありません。あなたが言うように、Q2は何らかの意味でかなりarbitrary意的ですが、AICをKullback-Leibler発散の推定値にすることから生じます。これはQ1の答えにも関連し、。m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
ビョルン

θ のPr arg maxθPr(D|θ)は、確率を最小化するものが見つかるまで、多くの探し続けることを意味します。各は、データセット説明を試みるモデルを定義するパラメーターのタプル/ベクトルです。つまり、データセット、それがパラメータ化されたモデルによって生成された確率はいくらですか?モデルは、本質的にこの最大化問題を解決するです。θθ D D θ M θPr(D|θ)θDDθmθ
穴居人

3
申し訳ありませんが、複数のモデルを探していますか(を記述しているため)、または最尤推定?また、は、特定のモデルおよび特定のパラメーターで発生したデータヘブンの確率であり、パラメーター化されたモデルによってデータが生成された確率ではないことに注意してください。... θ= argの最大θのP 指定されたモデルD | θ P 与えられたモデルD | θ θm=θ^:=argmaxθPgiven model(D|θ)P与えられたモデルD|θθ
ビョルン

MLEは私が言っていることです。しかし、パラメータタプルは非常に包括的であるため、モデルも定義していると言いたいだけです。またそれぞれ異なるAICスコア持つなどの複数のモデルを作成できます。私はそれがより簡単だと思うので、私はこの表記法を作り上げています。私はひどく間違っているか、これを不必要に混乱させていますか?(そして、MLEの意味を修正してくれてありがとう)M 1M 2 AIC 1AIC 2θm1m2AIC1AIC2
穴居人

3
予想されるKL情報損失の近似としてAICの導出は、Pawitan(2001)に記載されているすべての可能性では、章13
Scortchi -回復モニカ

回答:


13

穴居人によるこの質問は人気がありますが、私の論争の的になるまで、何ヶ月もの間、試みられた答えはありませんでした。以下の実際の答えは、それ自体が論争の対象ではなく、単に質問が「ロードされた」質問であるだけかもしれません。なぜなら、フィールドは(少なくとも、私には)AICとBICの互いの方法よりもOLS。リストされているすべての仮定、およびデータタイプと分析方法に課せられた制限を確認し、それらについてコメントしてください。これを修正して、貢献してください。これまでのところ、一部の非常に優秀な人々が貢献してきたため、ゆっくりと進歩しています。Richard HardyとGeoMatt22の貢献、Antoni Parelladaの優しい言葉、そしてCagdas OzgencとBen OgorekのKLの発散を実際の発散と関連付ける勇敢な試みを認めます。

始める前に、AICとは何かを確認します。このソースの1つはAICモデル比較の前提条件で、もう1つはRob J Hyndmanです。具体的には、AICは次と等しくなるように計算されます

2k2log(L(θ)),

ここで、はモデル内のパラメーターの数、は尤度関数です。AICは、モデリングの仮定からの分散()とバイアス()のトレードオフを比較し。AICの事実と誤 Fromから、ポイント3 「AICは残差がガウスであるとは想定していません。ガウス尤度が最も頻繁に使用されるだけです。しかし、他の分布を使用する場合は先に進みます。」AICは、使用することを選択したペナルティの可能です。たとえば、スチューデントのt分布残差のAICを解決するには、スチューデントのtの最尤解を使用できます。のL θ 2 k 2 log L θ kLθ2k2log(L(θ)AICに通常適用される対数尤度はガウスの対数尤度から導出され、

ログLθ=|D|2ログ2π12ログ|K|12バツμTK1バツμ

| D | μ X K > > | D | > 2 K > |Kはモデルの共分散構造、サンプルサイズ; データセット内の観測値の数、は平均応答、は従属変数です。厳密に言えば、AICはデータセットの比較には使用されず、同じデータセットを使用するモデルのみを使用するため、AICがサンプルサイズを修正する必要はないことに注意してください。したがって、サンプルサイズの修正が正しく行われたかどうかを調査する必要はありませんが、データセット間で有用になるようにAICを何らかの方法で一般化できる場合は、このことを心配する必要があります。同様に、漸近効率を保証するために、について多くのことが行われます。ミニマリストのビューで、AICを単なる「インデックス」と見なし、作成します|D|μバツK>>|D|>2K>|D|関連し、無関係です。ただし、に対して変更されたAICをより大きくない形で提案する形で、これにある程度の注意が払われていますAICと呼ばれる、以下のQ2の回答の2番目の段落を参照してください。この「対策」の急増は、AICがインデックスであるという概念を強化するだけです。ただし、一部のAICの支持者は、「i」という単語を使用する場合、「index」という単語の使用を、その個体発生を婚外と見なすのと同じ好意をもって同等に使用するため、注意が必要です。K>>|D|K|D|c

Q1:しかし、質問は次のとおりです。なぜ、この特定のフィットネスとシンプルさのトレードオフを気にする必要があるのでしょうか?

2つの部分に答えます。最初に特定の質問。気を付けるべきなのは、それが定義された方法だったからです。必要に応じて、CICを定義しない理由はありません。穴居人の情報基準であり、AICではありませんが、CICはAICと同じ答えを生成します。適合度と単純化のトレードオフには影響しません。AIC乗数として使用できる定数(1回を含む)は、絶対スケールを実施するための参照標準がないため、選択して遵守する必要があります。ただし、相対的なスケールでのみ定義されるAICのような数量に対して、ただ1つの定義、または「慣習」の余地があるという意味で、標準の定義に従うことはarbitrary意的ではありません。以下のAICの仮定#3も参照してください。

この質問に対する2番目の回答は、定数乗数の選択方法に関係なく、適合度と単純化のAICトレードオフの詳細に関するものです。つまり、実際に「トレードオフ」に影響するのは何ですか?これに影響することの1つは、モデル内のパラメーターの数を再調整する自由度です。これにより、AICと呼ばれる「新しい」AIC が次のように定義されます。c

ACc=AC+2kk+1nk1=2knnk12lnL

ここで、はサンプルサイズです。パラメーターの数が異なるモデルを比較する場合、重みがわずかに異なるため、AICはAIC自体とは異なるモデルを選択し、2つのモデルが異なるがパラメーターの数が同じ場合はAICと同じように選択します。他の方法もモデルを異なる方法で選択します。たとえば、「BIC [sic、Bayesian information criteria ]は一般に赤池情報基準よりも強くフリーパラメータにペナルティを課しますが、それは依存しますが...」ANOVAは、パラメーター値の必須性が異なっており、状況によってはAICの使用よりも望ましいnc。一般に、モデルの適切性を評価する方法には、長所と短所があります。私自身のアドバイスは、モデル自体をテストするよりも、データ回帰方法論への適用のために、モデル選択方法のパフォーマンスをテストすることです。疑う理由はありますか?はい、方法論的に適切な方法を選択するためにモデルテストを作成または選択する場合は注意が必要です。AICは、次のQ3を参照して、モデル評価のサブセットに役立ちます。たとえば、モデルAを使用した情報の抽出は、回帰方法1で実行するのが最適であり、回帰モデル2を使用するモデルBでは、モデルBと方法2が非物理的な答えを生成し、回帰方法がMLRでない場合、

Q3これは情報理論とどのように関係していますか

MLRの前提#1。AICは、回帰問題への最尤法(MLR)の適用可能性を前提としています。通常の最小二乗回帰と最尤回帰が同じであると私に指摘された状況は1つだけです。これは、通常の最小二乗(OLS)線形回帰からの残差が正規分布し、MLRにガウス損失関数がある場合です。OLS線形回帰の他の場合、非線形OLS回帰、および非ガウス損失関数では、MLRとOLSが異なる場合があります。OLSまたはMLRまたは適合度以外にも多くの回帰ターゲットがあり、多くの場合、たとえばほとんどの逆問題の場合、どちらかとは適切な答えがほとんどありません。。最尤回帰への依存性を緩和してより一般的な損失関数を許容するように、一般化AICを準尤度に使用する試み(1100回など)が非常に引用されています。さらに、Student's-tのMLRは、閉じた形式ではありませんが、堅牢に収束します。スチューデントt残差分布は、ガウス条件よりも一般的かつ一般的であるため、AICにガウス仮定を使用する特別な理由はありません。

MLRの前提#2。MLRは、適合度を定量化する試みです。適切でない場合に適用されることがあります。たとえば、トリミングされた範囲データの場合、使用されているモデルがトリミングされていません。完全な情報を網羅していれば、適合度はすべて良好です。時系列では、通常、最初にどのような物理的イベントが発生するかを完全に理解するのに十分な情報がありません。または、モデルが非常に初期のデータを調べるのに十分ではない場合があります。さらに厄介なのは、データ不足のために非常に遅い時期に適合度をテストできないことが多いことです。したがって、適合度は、曲線の下に収まる面積の30%のみをモデリングしている可能性があり、その場合、データの場所に基づいて外挿モデルを判断しており、その意味を調べていません。外挿するために、「量」の適合の良さだけでなく、外挿の「良さ」がない失敗した量の導関数も調べる必要があります。したがって、Bスプラインのような近似手法は、導関数が近似されるときにデータが何であるかをよりスムーズに予測できるため、あるいはエラー伝播適応型Tikhonovのようなモデル範囲全体の不適切な積分処理などの逆問題処理を使用できるため、使用が可能になります正則化。

もう1つの複雑な懸念事項は、データを使用して何をすべきかをデータが教えてくれることです。適合度(適切な場合)に必要なのは、標準偏差が距離であるという意味での距離である残差を持つことです。つまり、単一の標準偏差の2倍の残差が長さ2の標準偏差でもない場合、適合度はあまり意味がありません。モデル選択/回帰法を適用する前に、データ変換の選択を調査する必要があります。データに比例型エラーがある場合、通常、回帰を選択する前に対数を取ることは不適切ではありません。標準偏差を距離に変換するからです。または、比例データに適合するようにノルムを最小化するように変更できます。同じことがポアソン誤差構造にも当てはまりますが、データの平方根を取得してエラーを正規化するか、フィッティングの基準を変更することができます。フィッティングの基準を変更できない場合、はるかに複雑または難解な問題があります。たとえば、放射性核種の崩壊により、カウントデータと実際の質量との間に指数関数的な時間ベースの関連付けが導入される場合の核崩壊からのポアソンカウント統計腐敗がなかったらそれらのカウントを発していました。どうして?カウントレートを逆補正すると、ポアソン統計がなくなり、補正されたカウントの平方根からの残差(またはエラー)は距離ではなくなります。その後、減衰補正済みデータ(AICなど)の適合度テストを実行する場合は、謙虚な自分にはわからない何らかの方法で実行する必要があります。MLRの使用を主張する場合は、読者への未解決の質問、データのエラータイプを考慮してその基準を変更できますか(望ましい)、または常にデータを変換してMLRの使用を許可する必要があります(あまり有用ではありません)。AICは単一のモデルの回帰方法を比較するのではなく、同じ回帰方法の異なるモデルを比較することに注意してください。

AICの前提#1。MLRは通常の残差に制限されていないように思われます。たとえば、MLRとStudent's-tに関するこの質問を参照してください。次に、MLRが問題に適していると仮定して、理論上でAIC値を比較するための使用を追跡します。次に、少なくとも2つのモデルについて、1)完全な情報、2)同じタイプの残差の分布(たとえば、両方とも正規、両方ともスチューデントt)があると仮定します。つまり、2つのモデルに残差の分布タイプが必要になるという偶然があります。それは起こりますか?はい、おそらく、しかし確かに常にではない。

AICの仮定#2。AICは、量の負の対数(Kullback-Leibler発散で除算されたモデル内のパラメーターの数 )に関連しています。この仮定は必要ですか?では、一般的な損失関数の紙異なる「発散」が使用されます。これは、他の測定値がKL発散よりも一般的である場合、なぜAICにも使用しないのかという疑問につながります。

Kullback-Leibler発散からのAICの不一致の情報は、「...確率分布間の距離を測定する方法としてしばしば直観されますが、Kullback-Leibler発散は真のメトリックではありません。」です。その理由はすぐにわかります。

KL引数は、モデル(P)とデータ(Q)の2つの事柄の差がある点に到達します。

DKLPQ=バツログdPdQdPdQdQ

これは、「Q」に対する「P」のエントロピーとして認識されます。

AICの前提#3。対数の底に関係なく、Kullback-Leiblerの発散を含むほとんどの式が成り立ちます。AICが一度に複数のデータセットを関連付けている場合、定数乗数はより意味があります。メソッドを比較するときのように、場合、正の回数はます。任意であるため、定義の問題として定数を特定の値に設定することも不適切ではありません。ACdatamodel1<ACdatamodel2<

AICの仮定#4。それは、AICがシャノンのエントロピーまたは自己情報を測定するということです。」私たちが知る必要があるのは、「エントロピーは情報のメトリックに必要なものですか?」です。

「自己情報」が何であるかを理解するためには、物理​​的なコンテキストで情報を正規化する必要があります。はい、情報のメジャーに物理的なプロパティを持たせたいです。それでは、より一般的な状況ではどのように見えるでしょうか?

ギブス自由エネルギー方程式(G=HTS)エネルギーの変化をエンタルピーの変化から絶対温度にエントロピーの変化を引いたものに関係します。温度は正常なタイプの正規化された情報コンテンツの例です。1つの熱いレンガと1つの冷たいレンガが熱的に閉じた環境で互いに接触すると、それらの間で熱が流れるためです。さて、あまり考えずにこれに飛びついたら、熱は情報だと言います。しかし、それはシステムの動作を予測する相対的な情報ですか?情報は平衡に達するまで流れますが、何の平衡に達しますか?温度、特定の粒子質量の粒子速度のような熱ではなく、温度です それを知る必要はありません。知る必要があるのは、総温度が平衡化することだけです。したがって、1つのレンガの温度が高い場合、相対的な情報量は多くなり、冷たい場合は少なくなります。

さて、あるブリックが他のブリックよりもエントロピーが大きいと言われたら、それではどうでしょう?それだけでは、別のレンガと接触したときにエントロピーが増加するか失われるかを予測しません。それでは、エントロピーだけが情報の有用な尺度ですか?はい。ただし、同じブリックをそれ自体と比較する場合にのみ、つまり「自己情報」という用語を使用します。

それから最後の制限があります。KL発散を使用するには、すべてのブリックが同一でなければなりません。したがって、AICを非定型インデックスにするのは、データセット(たとえば、異なるブリック)間で移植できないことです。これは、情報コンテンツを正規化することで対処できる特に望ましいプロパティではありません。KL発散は線形ですか?たぶんそうだけどたぶん違う。ただし、それは問題ではありません。AICを使用するために直線性を仮定する必要はありません。たとえば、エントロピー自体は温度に直線的に関連するとは思いません。つまり、エントロピー計算を使用するために線形メトリックは必要ありません。

AICに関する情報の1つの良い情報源は、この論文にあります。悲観的な面では、「それ自体、特定のデータセットのAICの値には意味がありません」と言います。これは、楽観的な側面では、結果が近いモデルは、信頼区間を確立するためにスムージングすることなどによって差別化できることを示しています。


1
新しい回答と古い削除済み回答の主な違いを教えてください。かなり重複しているようです。
リチャードハーディ

2
解答が削除されたとき、私は数時間答えを編集していました。進行中の作品であり、多くの読書と思考を必要としていたので、私が始めたときと比べて多くの変更がありました。AICは批判的なレビューにはあまりにも良いと思われますが、私はどうでしょうか?編集を完了して再投稿しました。私の答えの何が間違っているのか知りたい。私はそれに一生懸命取り組み、正直になろうとしましたが、誰も気にしませんでした。
カール

4
動揺しないでください。ここでの最初の経験もイライラしましたが、後で適切な方法で質問することを学びました。中立的な調子を保ち、確固たる事実に基づかない強い意見を避けることは、私見としての良い第一歩です。(ちなみに、私はあなたの質問に賛成しましたが、まだ答えをためらっています。)
リチャードハーディ

3
+1はじめに。今から答えを読み続けます。
アントニ・パレラダ

2
@AntoniParelladaあなたは質問が削除されないようにするだけで助けてくれました。AICを介した作業は困難であり、支援が必要です。確かに私の洞察力の一部は良いですが、私はまた、他の心はI.よりも引くに優れている口病における蹄、持っている
カール・

5

AICは、真の分布と近似パラメトリックモデル間の予想されるKullback-Leibler発散に対するモデル駆動型加法項の2倍の推定値です。fg

KL発散は情報理論のトピックであり、2つの確率分布間の距離の尺度として(厳密ではありませんが)直感的に機能します。以下の説明では、Shuhua Huのこれらのスライドを参照しています。この答えには、「重要な結果」の引用が必要です。

真のモデルとの間のKLダイバージェンスと近似モデルであり、 fgθ

dfgθ=fバツログfバツdバツfバツログgθバツdバツ

真実は不明であるため、データはから生成され、最尤推定は推定器ます。上記の方程式でをに置き換えると、KL発散式の2番目の項とKL発散自体の両方がランダム変数になります。スライドの「重要な結果」は、に関する第2加法項の平均が、尤度関数(MLEで評価)の単純な関数と、次元によって推定できることです。 yfθ^yθθ^yyLkθ

Ey[fバツログgθ^yバツdバツ]ログLθ^y+k

AICは上記の予想の2倍(HT @Carl)として定義され、より小さい(より負の)値は、真の分布とモデル化された分布間の推定KL発散のより小さいことに対応します。fgθ^y


ご存じのように、対数尤度に適用される場合の逸脱という用語は専門用語であり、不正確です。AICの違いが直線性ではなく比較価値を持つためには単調性のみが必要なので、この説明は省略しました。したがって、私は、おそらく存在しない可能性があり、とにかく必要のない何かを「視覚化」しようと過度​​に懸命にしようとすることの関連性を理解できません。
カール

2
最後の段落に赤いニシンが追加されているという点がわかりました。2* xがxと同じであると確信する必要はないことを理解しています。「慣例により」数量に2を掛けると言ってもいいでしょうか。
ベンオゴレク

2
そんな感じ。個人的には、最初にそのように選択されたため、「定義されている」に投票します。または、これを時間の観点から見ると、スケールを実施する参照標準がないため、一度使用することを含めて使用できる定数を選択して遵守する必要があります。
カール

4

最初の2つの質問の簡単な観点は、AICは最尤モデルの予想されるサンプル外エラー率に関連しているということです。AIC基準は、関係(統計学習方程式7.27の要素) ここで、表記法に従って、はモデルの最尤値がであるパラメーターの数です。kmmLmD

2E[lnPrD|θ]2NE[lnLmD]+2kmN=1NE[ACmD]
kmmLmD

左側の項は、最尤モデルの予想されるサンプル外の「エラー」率であり、確率のログをエラーメトリックとして使用します。-2係数は、逸脱を構築するために使用される従来の補正です(特定の状況ではカイ2乗分布に従うため有用です)。m={θ}

右手は、最大化された対数尤度から推定されたサンプル内の「エラー」率と、最大化された対数尤度の楽観性を修正するという用語でます。2km/N

したがって、AICは、サンプル外の「エラー」率(偏差)倍推定値です。N

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.