統計学習入門のAIC式


9

Hastieの「Introduction to Statistical Learning」で提示された式に少し戸惑っています。第6章、212ページ(6番目の印刷、ここで利用可能)では、次のように述べられています。

C=RSSσ^2+2d

ガウスノイズのある線形モデルの場合、は予測子の数、は誤差分散の推定値です。しかしながら、dσ^

σ^2=RSS2

これについては、第3章の66ページで説明されています。

それは意味するでしょう:

C=2+2d

これは正しくありません。誰かが私が間違っていることを指摘できますか?


何かを逃さない限り、本は正しいとは思えません。
Glen_b-2015

回答:


3

私はあなたが持っている2つの残差平方和を混同していると思います。数式でを推定するRSSが1つあります。このRSSは、ある意味では、パラメーターの数は無関係です。このは、すべての共変量を使用して推定する必要があります。これにより、エラーの基準単位が得られますAICの式で RSSを呼び出す必要があります:、パラメータを持つモデルに対応することを意味します(パラメータを持つ多くのモデルがある場合があります)。したがって、式のRSSは特定のモデルに対して計算され、RSSはσ^2pσ^2RSSpppσ^2はフルモデル用です。

これは前のページにも記載されており、にが導入されています。σ^2Cp

したがって、AICの数式のRSSはに依存せず、特定のモデルに対して計算されます。これらすべてにを導入することは、エラーのベースライン単位を持たせることであり、パラメーターの数とエラーの減少との間に「公平な」比較が存在するようにします。パラメータの数を、エラーの大きさに対してスケーリングされたものと比較する必要があります。pσ^2

RSSをベースラインエラーでスケーリングしない場合は、RSSが導入された変数の数よりも大幅に減少しているため、変数を追加することに貪欲になります。これをある単位にスケーリングする場合、パラメーターの数との比較は、ベースラインエラーの大きさとは無関係です。

これはAICを計算する一般的な方法ではありませんが、数式のより単純なバージョンを導出できる場合、基本的にこれに似たものに要約されます。


いくつかのサブセットのRSSとは対照的に、利用可能な予測子の合計セットを使用してこれらのモデルのエラー分散を推定する背後にある理由について詳細を読むことができる参考資料を提供できますか?あなたの回答がこの質問にどのように答えるかはわかりますが、そもそもなぜそうすることが正当なのかはわかりません。
スードニム2015年

@SueDohNimh これらのスライドは良い出発点となります。の最良の推定は、C pで導入された完全なモデルを使用することに注意してください。あなたが持っているAICは、1であるσ 2が知られているが、あなたはちょうどあなたが得ることができることを最善の見積りを使用しています。見積りσ 2は非常に困難な場合があります。この議論も関連があります。これも関連がありますσ2Cpσ2σ2
Gumeo 2015年

2
赤池のオリジナルの論文も読んでください。これは最高の情報源だと思います。現時点で15,000件を超える引用があります。ここでは、オンラインのどこかで見つけたり、大学からアクセスしたりできるはずです。
Gumeo 2015年

5

残念ながらこれはかなり満足のいく答えにはなりません...

まず第一には、通常、AICの計算のために、あなたはの最尤推定値を使用しますバイアスされることになります。だからに減らすことがσ 2 = R S Sσ2そして最終的に行う計算は1+2dに削減されますσ2=RSS。次に、特に等分散の場合のセクションで、AICに関するWikipediaの記事を紹介します。ご覧のとおり、ほとんどの派生では定数Cが省略されています。この定数はモデルの比較には関係ないため、省略されています。その問題のために、AICの派生が矛盾しているのを見るのは幾分一般的です。たとえば、Johnson&WichernのApplied Multivariate Statistical Analysis、6th editionは、AICを次のように示します。nlogRSS1+2dC7.6章)。これは、James et al。の定義と明らかに同等ではありません。あなたが使用しています。どちらの本もそれ自体は間違っていません。異なる定数を使用している人々だけです。ジェームズ等の場合。本は彼らがこの点を暗示していないようです。他の本で例えば。RavishankerとDeyの線形モデル理論の最初のコースこれは、著者が書いているようにさらに深遠です。ログRSSN+2d

Cp=2ly;バツβ^MLσ^ML2+2p=Nログσ^ML2/2N/2+2p7.5.10

おもしろいことに、それも同時に真実ではあり得ません。バーナム・アンダーソン(1998)Cha​​pt 2.2」:ライト正規分布の誤差と推定最小二乗(LS)の特別な場合、及び離れ任意の添加剤の定数から、AICは、残差平方和の単純な関数として表すことができます。 。 "; B&Aは、J&Wが使用するものと同じAICバリアントを提案しています。何を台無しにすると、その特定の定数であるM.ビショップを見て(とあなたが残差のためのML推定値を使用していなかったという事実。)パターン認識と機械学習(2006)私としても、多くの矛盾した定義を見つけます:

C=lD|wMLM1.73

これは面白いです。元の紙から乗数が省略されるだけでなく、AICベースの選択を最大化の問題として使用できるように標識をタンブルすることもできるからです...

2ログL+2p


ああ!まあそれは確かに少し風変わりですが、ありがとうございました。ただし、暗黙のうちに、ハスティーのAICはdで線形に増加し、残差の2乗の合計の関数ではありません。少なくとも提供した他の定義はトレーニングセットのエラーによって異なりますが、HastieのAICは、最適なモデルは予測子が0のモデルのみであることを意味します。それと結婚する方法はありますか?
スードニム2015年

1
ログCp1NCp

有名なHastie / Tibshiraniの著書「統計的学習の要素」(p.230-233)を読んで、AIC / BICの定義が「統計入門の紹介」で与えられた定義と非常に似ている、あなたと同じ結論に至りました。 Rで学ぶ」。だから、ハスティは素晴らしい学問ですが、彼はAIC / BIC =)の定義があまり得意ではありません。
Rodvi、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.