回答:
私はあなたが持っている2つの残差平方和を混同していると思います。数式でを推定するRSSが1つあります。このRSSは、ある意味では、パラメーターの数は無関係です。このは、すべての共変量を使用して推定する必要があります。これにより、エラーの基準単位が得られます。AICの式で RSSを呼び出す必要があります:、パラメータを持つモデルに対応することを意味します(パラメータを持つ多くのモデルがある場合があります)。したがって、式のRSSは特定のモデルに対して計算され、RSSははフルモデル用です。
これは前のページにも記載されており、にが導入されています。
したがって、AICの数式のRSSはに依存せず、特定のモデルに対して計算されます。これらすべてにを導入することは、エラーのベースライン単位を持たせることであり、パラメーターの数とエラーの減少との間に「公平な」比較が存在するようにします。パラメータの数を、エラーの大きさに対してスケーリングされたものと比較する必要があります。
RSSをベースラインエラーでスケーリングしない場合は、RSSが導入された変数の数よりも大幅に減少しているため、変数を追加することに貪欲になります。これをある単位にスケーリングする場合、パラメーターの数との比較は、ベースラインエラーの大きさとは無関係です。
これはAICを計算する一般的な方法ではありませんが、数式のより単純なバージョンを導出できる場合、基本的にこれに似たものに要約されます。
残念ながらこれはかなり満足のいく答えにはなりません...
まず第一には、通常、AICの計算のために、あなたはの最尤推定値を使用しますバイアスされることになります。だからに減らすことがσ 2 = R S Sそして最終的に行う計算は1+2dに削減されます。次に、特に等分散の場合のセクションで、AICに関するWikipediaの記事を紹介します。ご覧のとおり、ほとんどの派生では定数Cが省略されています。この定数はモデルの比較には関係ないため、省略されています。その問題のために、AICの派生が矛盾しているのを見るのは幾分一般的です。たとえば、Johnson&WichernのApplied Multivariate Statistical Analysis、6th editionは、AICを次のように示します。nlog(RSS(第7.6章)。これは、James et al。の定義と明らかに同等ではありません。あなたが使用しています。どちらの本もそれ自体は間違っていません。異なる定数を使用している人々だけです。ジェームズ等の場合。本は彼らがこの点を暗示していないようです。他の本で例えば。RavishankerとDeyの線形モデル理論の最初のコースこれは、著者が書いているようにさらに深遠です。
おもしろいことに、それも同時に真実ではあり得ません。バーナム・アンダーソン(1998)Chapt 2.2」:ライト正規分布の誤差と推定最小二乗(LS)の特別な場合、及び離れ任意の添加剤の定数から、AICは、残差平方和の単純な関数として表すことができます。 。 "; B&Aは、J&Wが使用するものと同じAICバリアントを提案しています。何を台無しにすると、その特定の定数であるM.ビショップを見て(とあなたが残差のためのML推定値を使用していなかったという事実。)パターン認識と機械学習(2006)私としても、多くの矛盾した定義を見つけます:
これは面白いです。元の紙から乗数が省略されるだけでなく、AICベースの選択を最大化の問題として使用できるように標識をタンブルすることもできるからです...