ブースティングはどのように機能しますか？

23

ブースティングを理解する最も簡単な方法は何ですか？

なぜ非常に弱い分類器を「無限に」（完全）にブーストしないのですか？

machine-learning boosting

— ŁukaszLew
ソース

28

平易な英語：分類器が一部のデータを誤って分類した場合、微妙な何かを発見できることを期待して、この誤って分類された部分を中心に別のコピーをトレーニングします。そして、いつものように、繰り返します。途中で、これらすべての分類子の予測を適切な方法で組み合わせることができるいくつかの投票スキームがあります。

時には不可能な場合があるためです（ノイズは情報の一部を隠しているだけであるか、データにさえ存在しません）。一方、過度にブーストすると、過剰適合につながる可能性があります。

8

ブースティングでは、学習率パラメーターによる収縮を採用し、k倍交差検証、「out-of-bag」（OOB）予測、または独立したテストセットと組み合わせて、アンサンブルに保持するツリーの数を決定します。

学習速度が遅いモデルが必要なため、個々のモデルの複雑さと含めるモデルの数の点でトレードオフがあります。私が見たガイダンスでは、学習率を可能な限り低く設定することをお勧めしています（計算時間とストレージスペースの要件を考慮）、各ツリーの複雑さは、相互作用が許可されるかどうか、およびどの程度までに基づいて選択されるべきか、ツリーが複雑になるほど、表現できる相互作用が複雑になります。

学習率は範囲で選択されます。より小さな値（）が推奨されます。これは、各ツリーに適用される重み付けであり、各モデルの適合値への寄与を重み付けします。 $[0,1]$ $<0.01$

k倍CV（またはOOB予測または独立テストセット）を使用して、ブーストされたモデルがオーバーフィットし始めたときを決定します。本質的には、これが完璧なモデルへのブーストを止めることですが、ゆっくり学習するほうが、フィットしたモデルに貢献するモデルの大きなアンサンブルが得られるようになります。

— モニカの復活-G.シンプソン
ソース