回答:
あなたが言うように、この問題について多くのことが議論されており、それに伴って非常に重い理論がいくつかあります。私の実際の経験では、AdaBoostはオーバーフィットに対して非常に堅牢であり、LPBoost(線形プログラミングブースティング)はさらに強力です(目的関数には容量制御の形式である弱学習器の疎結合が必要なため)。それに影響を与える主な要因は次のとおりです。
「弱」学習者の「強さ」:決定切り株(1レベルの決定ツリー)などの非常に単純な弱学習器を使用する場合、アルゴリズムは過剰適合しにくい傾向があります。より複雑な弱学習器(決定木や超平面など)を使用しようとするたびに、オーバーフィットがより迅速に発生することがわかりました
データのノイズレベル:AdaBoostは、特にノイズの多いデータセットに過剰適合する傾向があります。この設定では、正規化された形式(RegBoost、AdaBoostReg、LPBoost、QPBoost)が望ましい
データの次元性:一般に、高次元空間でより多くの過剰適合を経験することを知っています(「次元性の呪い」)。AdaBoostは、それ自体が被る分類器の単なる線形結合であるため、その点でも被る可能性があります問題から。他の分類器と同じくらい傾向があるかどうかを判断するのは困難です。
私は、tdcのコメントで述べられているポイントのほとんどに同意します。ただし、いくつかのことを追加して修正する必要があります。
caret
パッケージを使用してadaboostの相互検証を行うことができ、通常は一般化することがわかりました。