AICモデル比較の前提条件


26

AICモデルの比較を機能させるために満たす必要がある正確な前提条件は何ですか?

このような比較をしたとき、私はこの質問に出くわしました。

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

このようにしてlog、変数の変換を正当化しましたusili。しかし、たとえば従属変数が異なるときにモデルをAIC比較できるかどうかわかりませんか?

理想的な答えには、前提条件(数学的な仮定)のリストが含まれます。

回答:


29

2つのモデルを比較することはできません。同じ変数をモデル化していないためです(正しく認識しているため)。それでも、ネストされたモデルとネストされていないモデルの両方を比較する場合、AICは機能するはずです。

続行する前の注意点:ガウスの対数尤度は

ログLθ=|D|2ログ2π12ログ|K|12バツμTK1バツμ

Kはモデルの共分散構造、データセットのポイント数、平均応答、従属変数。μ X|D|μバツ

より具体的には、AICはに等しくなるように計算されます。ここで、はモデルの固定効果の数、は尤度関数[1]です。モデリングの仮定における分散()とバイアス()のトレードオフを実際に比較します。このように、バイアス項に関しては、2つの異なる対数尤度構造を比較します。これは、対数尤度を実際に計算するときに、2つの用語を見るためです。-、およびで表される複雑性ペナルティ項k L 2 k 2 log L 12k2ログLkL2k2ログL-112バツμTK1バツμ12ログ|K|。したがって、2つのモデル間で近似項が完全に異なることがわかります。最初のケースでは生データからの残差を比較し、他のケースではログデータの残差を比較します。

ウィキペディアとは別に、AICは次のように定義されています: [3]; この形式は、異なる従属変数を持つ異なるモデルが比較できない理由をさらに明確にします。RSSは2つのケースであり、2つの間で比較することはできません。|D|ログRSS|D|+2k

赤池のオリジナルの論文[4]は実際には把握するのが非常に難しい(と思う)。これはKL発散(大まかに言えば2つの分布の差)に基づいており、データの未知の真の分布を近似し、モデルが想定するデータの分布と比較する方法を証明することに役立ちます。それが「AICスコアが小さいほど良い」という理由です。データのおおよその真の分布に近くなります。

したがって、AICを使用するときに覚えておくべき明らかなことは3つあります[2,5]。

  1. 異なるデータセットのモデルを比較するために使用することはできません。

  2. すべての候補モデルに同じ応答変数を使用する必要があります。

  3. が必要です 、それ以外の場合は、良好な漸近的整合性が得られないため。|D|>>k

悪い知らせを伝えるのは残念ですが、AICを使用して、ある従属変数を別の従属変数よりも選択していることを示すことは、統計的に健全なことではありません。両方のモデルで残差の分布を確認します。ログに記録されたデータケースが残差を正常に分布し、生データケースがそうでない場合は、必要なすべての正当化があります。また、生データが対数正規分布に対応しているかどうかを確認することもできます。これは正当化に十分かもしれません。

厳密な数学的仮定のために、ゲームはKL発散と情報理論です...

ああ、そしていくつかの参照:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. 赤池情報量基準、シュワ・フー(プレゼンテーションp.17-18)
  3. 応用多変量統計分析、Johnson&Wichern、第6版。(p。386-387)
  4. 統計モデル同定の新しい視点、H。赤池、自動制御に関するIEEEトランザクション19(6):716–723(1974)
  5. モデル選択チュートリアル#1:赤池の情報量基準、D。シュミットおよびE.マカリク(プレゼンテーションp.39)

ありがとう!私は数学を理解していませんでしたが、私はメッセージの核心を得ました。ただし、AICモデルの比較に必要なすべての前提条件をリストしてください。念のため、次回もまた間違いを犯さないようにしています。私は行って、それらを一つ一つ確認します。
好奇心が

1
そのような「チェックリスト」がないのではないかと心配しています。参照[2] 興味があるなら、非常に包括的なリストがあります。覚えておくべき主なことは次のとおりです。1. AICは漸近的に効率的なモデル選択基準なので、および2. よりも大幅に大きくなります。同じ従属データのモデルを比較する場合にのみ使用できます。数学的に言えば、を2階微分可能にし、すべての候補モデルを一意のマップし、ML推定値を一貫させる必要がありますが、これらの仮定は、紙...p個のL θ θ P X | θ |D|pLθθpバツ|θ
usεr11852が復活モニック言う

1
これら3つの仮定のリストを回答に追加していただきありがとうございます!それが私が必要としたものです。
好奇心が

1
あなたの答えをもう一度見てください:あなたのポイント1. 「異なるデータセットのモデルを比較するためにそれを使用することはできません」。「データセット」とはどういう意味ですか?従属変数のセットを変更するとどうなりますか?その場合、AICはまだ匹敵するはずだと思いますか?これを明確にするために回答を更新してください。
好奇心が

1
(返信が非常に遅いのでごめんなさい!)独立変数を言いたいと思います...従属変数を変更すると、「モデル適合」(大まかに言うと)がそうではないので、もう一度台無しにします同じと比較します。(@Curiousに答える時間を取ってください、7月中旬までは何も期待していません!:D)μ XRSSμバツ
–usεr11852によると、Reinstate Monic 14

11

原則としてAICを使用して比較できるはずです。「AIC」と呼ばれる数字が必要な数字ではないというだけです。正規分布と対数正規分布を比較しています。これで、モデルからのAIC uu0は基本的に、ログ変換の「ヤコビアン」を欠いています。対数正規モデルの場合、これは単にです。これをAICに変換するには、この項の2回の負のログを取る必要があり。つまり、のAIC番号にを追加する必要があり。だからあなたはと比較されている必要があります y12ログyuu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


どういうわけか、AICを「修正」しようとする試みの内容と、実際に何を達成したのか(結果の解釈方法)がわかりません。何をしている:とにかく、この掘り下げていない私の質問は完全に異なる何かについてだったので、それは問題ではない一般の AICの前提条件は、(実際の未補正)常識的に同等であることが。この特定の例に焦点を合わせないでください。これは一般的な例にすぎません。
好奇心が

1
@curious-私のポイントは、私の「修正されたAIC」が実際のAICであり、「従属変数」の変換を比較するときにAIC関数から得られるものが間違っているということです。ポイントはが変換の下で変化することで、(たとえば、)です。AICを使用する場合、この変更のヤコビアンを考慮する必要があります。使用している機能は、これを考慮していません。2ログpy|θバツ=gyバツ=logyAIC()
確率論的

@probabilityislogic:学術論文で引用できるように、提案(AIC(uu0)+ 2 * sum(log(usili)))の学術的な参考文献はありますか?ありがとう。
KuJ 14

3

赤池1978年から撮影

赤池1978からのこの抜粋は、@ probabilityislogicによる解決策を支持する引用を提供します。

赤池H.1978。時系列モデルの可能性について。王立統計学会誌。シリーズD(統計学者)27:217-235。


1
申し訳ありませんが、「変数の変換」とは何か、それは私の質問にどのように関連するのか理解できません。説明してください、ありがとう
好奇心が
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.