「赤池情報量基準」に出会ったばかりで、モデル選択に関するこの膨大な文献に気づきました(BICのようなものも存在するようです)。
なぜ現代の機械学習方法は、これらのBICおよびAICモデル選択基準を活用しないのですか?
「赤池情報量基準」に出会ったばかりで、モデル選択に関するこの膨大な文献に気づきました(BICのようなものも存在するようです)。
なぜ現代の機械学習方法は、これらのBICおよびAICモデル選択基準を活用しないのですか?
回答:
AICとBICは、たとえば段階的回帰で使用されます。これらは実際には、より大きなクラスの「ヒューリスティック」の一部であり、これも使用されます。たとえば、ベイジアンモデルの選択では、DIC(偏差情報基準)がよく使用されます。
ただし、それらは基本的に「ヒューリスティック」です。AICとBICの両方がクロスバリデーションアプローチに漸近的に収束することを示すことができますが(AICはLeave-one-out CVに向かっており、BICは他のアプローチに向かっていると思いますが、わかりません)それぞれペナルティ不足とペナルティ超過。すなわち、AICを使用すると、モデルが必要以上に複雑になることがよくありますが、BICを使用すると、あまりにも単純すぎるモデルが得られることがよくあります。
どちらもCVに関連しているため、多くの場合、CVの方が適切な選択であり、これらの問題はありません。
最後に、BICとAICに必要なパラメーターの数の問題があります。実数値入力の一般的な関数近似(KNNなど)を使用すると、パラメーターを「隠す」ことができます。つまり、2つの実数と同じ情報を含む実数を構成できます(数字の交差など)。その場合、パラメーターの実際の数はいくつですか?一方、より複雑なモデルでは、パラメーターに制約がある場合があります。たとえば、ようなパラメーターのみを適合させることができます(たとえば、こちらを参照)。または、識別できない可能性があります。その場合、パラメーターの複数の値が実際に同じモデルを提供します。これらすべての場合において、単にパラメーターを数えるだけでは適切な推定値は得られません。
現代の多くの機械学習アルゴリズムはこれらの特性(すなわち、普遍的な近似、不明確なパラメーターの数、識別不能性)を示すため、AICとBICは一見すると思われるよりもこれらのモデルにはあまり役に立ちません。
編集:
明確にすることができるいくつかのポイント: