AICを最小化してモデルを選択するのはいつが適切ですか?


12

AIC統計の値が最小値の特定のしきい値内にあるモデルは、AIC統計を最小化するモデルとして適切であると見なす必要があることは、少なくとも一部の高水準の統計家の間で十分に確立されています。たとえば、[1、p.221]には、

次に、GCVまたはAICが小さいモデルが最適です。もちろん、GCVやAICを盲目的に最小化すべきではありません。むしろ、適度に小さいGCVまたはAIC値を持つすべてのモデルは、潜在的に適切であると見なされ、その単純さと科学的関連性に従って評価されるべきです。

同様に、[2、p.144]には、

最小値のc以内のAIC値を持つモデルは、競争力があると見なすべきであると提案されています(Duong、1984)(c = 2を典型的な値として)。競合モデルからの選択は、残差の白色度(セクション5.3)やモデルの単純さなどの要因に基づいて行うことができます。

参照:

  1. ルパート、D。ワンド、MP&キャロル、RJ セミパラメトリック回帰、ケンブリッジ大学出版局、2003年
  2. ブロックウェル、PJ&デイビス、RA 時系列と予測入門、ジョンワイリー&サンズ、1996

それでは、上記を踏まえて、以下の2つのモデルのどちらを優先する必要がありますか?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

より一般的には、AICまたは関連する統計を盲目的に最小化することによってモデルを選択することが適切なのはいつですか?


どちらのモデルにもAICを指定していません。
ピーターフロム-モニカの回復

私はRでそれを取得する方法を示しました
Hibernating

1
下記のARIMAモデルの+1の問題。しかしそれ以外の場合:「予後モデルの単純化:臨床データに基づくシミュレーション研究」。Ambler 2002は、これについて最も引用されているリファレンスです。
チャールズ

回答:


4

上コスマ・シャリッチの講義ノートから言い換え線形回帰についての真実あなたはAICのような統計量を最小限に抑えるために起こったという理由だけでモデルを選択したことがないものとするために、

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
有名なユダヤ人が言ったように:「想像力は知識よりも優れています」:)
冬眠

そして、有名な非ユダヤ人が言ったように、「見るとたくさん見ることができる」(ヨギ・ベラ)。
ピーターフロム-モニカの回復

もちろん、私たちが目にするものは、主に私たちが探すものに依存します。--John Lubbock
Hibernating

12

モデル選択でAICを使用することが適切であることが多いと思いますが、モデル選択の唯一の基礎として使用することはまれです。また、実質的な知識を使用する必要があります。

あなたの特定のケースでは、3次のARを持つモデルと1次のARを持つモデルを比較しています。AIC(または類似のもの)に加えて、自己相関プロットと部分自己相関プロットを確認します。3次モデルが何を意味するかも検討します。それは意味がありますか?それは実質的な知識に追加されますか?(または、予測のみに関心がある場合、予測に役立ちますか?)

より一般的には、非常に小さな効果サイズを見つけることが興味深い場合があります。


有馬モデルを選択するための優れたアルゴリズムは、AIC(または同等のもの)の基準のみに基づいてはならない、とだけ言ったのですか?
冬眠

はい私はそれを言った。
ピーターフロム-モニカの復活

そして、この終わりに私はそれをさようならauto.arimaとして聞いた。私の好みは、Bisgaard、S.&Kulahci、M.の時系列分析と予測の第6章で概説されているアプローチに従うことです。モデルの違い
休止

1
@Hibernating:auto.arimaHyndman&Khandakar(2008)の作者は、次のように述べています。-「ビジネスでは、多数の単変量時系列の自動予測が必要になることがよくあります。1,000以上の製品ラインがあり、少なくとも毎月の予測が必要です。少数の予測が必要な場合でも、時系列モデルを使用してそれらを生成するための適切なトレーニングを受けた人がいない可能性があります。このような状況では、自動予測アルゴリズムは不可欠なツールです。」これらの状況に注意してください。
Scortchi-モニカの回復

2
ありがとう、でも前に読んだことがある。今のところ「auto」部分の明らかな問題を無視しても、特に季節モデルを含めるように拡張されている場合、「arima」部分に問題があります。季節のARIMAモデルは、PJハリソン、Cチャットフィールド、および私がたまたま学ぶことを楽しんだ他のいくつかの人格から強く批判されています。i)絶対に必要であり、ii)サウンドを見つけることができるアルゴリズムに基づいている場合、自動予測に反対することはありません。それ以外の場合は、数年前のStat ScienceのLeo Breimanの「2つの文化」に関する彼のコメントのDR Coxのアドバイスに従います。
2014年

8

PP


2
あなたの最後の文は興味深いです。最終的に目的が予測である場合、重要でない予測子を回帰に追加することは正当化される可能性があることを読んだことを覚えています。当時はあまり注意を払っていませんでしたが、今度はそのリファレンスを探してみます。
冬眠

3
代わりの追加私が言う削除しないよう。また、予測だけでなく、統計的関連性評価を使用して変数を選択すると、バイアスが生じ、標準誤差と信頼限界が無効になります。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.