AdaBoostなどのブースティングアルゴリズムは、複数の「弱い」分類子を組み合わせて、単一のより強力な分類子を形成します。理論的には、基本分類子でブースティングが可能であるはずですが、実際には、ツリーベースの分類子が最も一般的であるようです。
どうしてこれなの?ツリー分類子のどのプロパティがこのタスクに最適ですか?ブースティングのメリットが大きい他の基本分類子はありますか?分類の問題を念頭に置いて質問しますが、回帰アプリケーションに関する回答にも興味があります。
AdaBoostなどのブースティングアルゴリズムは、複数の「弱い」分類子を組み合わせて、単一のより強力な分類子を形成します。理論的には、基本分類子でブースティングが可能であるはずですが、実際には、ツリーベースの分類子が最も一般的であるようです。
どうしてこれなの?ツリー分類子のどのプロパティがこのタスクに最適ですか?ブースティングのメリットが大きい他の基本分類子はありますか?分類の問題を念頭に置いて質問しますが、回帰アプリケーションに関する回答にも興味があります。
回答:
私はあなたが正しいことを確信しており、他の分類子の代わりに決定木を使用する必要がある理由はありません。とはいえ、よく使われる理由はいくつかあると思います。速度は1つの要素です。ブーストには、多くの分類子のトレーニングが必要になる場合があります。それぞれが巨大な多層ニューラルネットワークである場合、手順全体が非常に遅くなります。
さらに重要なことに、決定木は「十分に良い」と思います。ブーストの背後にある全体的なアイデアは弱い分類子をプールすることなので、より多くの調整が必要になる可能性がある重いソリューション(たとえば、SVMのハイパーパラメーターとカーネルをいじる)を落とす大きな動機はありません。
最後に、ブースティングツリーとデシジョンツリーは、少なくとも私の頭では、概念的には多少似ています(たとえば、ノードを追加するか、新しい分類子を作成します)。アンサンブル学習の多くは木を使用しているようです。私は、あなたが考えることができ、あなたが本当にしたい場合ナイーブベイズ学習者の「ランダムフォレスト」を持っています。
アンサンブルメソッドの理解に洞察を追加するいくつかの特性があります。
バギング
おそらく、最も単純なアンサンブル法であるバギングは、リサンプリングされたトレーニングデータに基づいて構築され、組み合わせ法によってまとめられた類似の同種の分類器のコレクションに過ぎず、出力を平均することにより、基本分類器の不安定性によって引き起こされる分散を改善します。アンサンブルはこの不安定性を利用して、基本分類子の誤差の分散成分に対処し、その偏りをより少なくします。
バギングは、そうでなければ非常に不安定な「弱い」基本分類子になるものにかなりの平滑化を提供すると考えることができます。計算効率への傾向とは別に、弱い分類子が選択される理由の1つは、より高い多様性を示すことです。アンサンブルにとって有益な特性です。
非常に強力な安定した分類器でいっぱいのバギングされた集団を視覚化すると、集団に提示された例の分類について、非常に高度な一致が得られます。事実上、彼らはすべて同じ方法で投票します。すべてのメンバーが同様に投票する委員会は、委員会の単一のメンバーよりもほとんど有用性がありません。
アンサンブルが効果的に機能するためには、メンバー間の多様性をある程度受け入れる必要があります。明らかに、ほとんどランダムな意見を吐き出したメンバーの委員会も、あまり役に立たない。したがって、これらの両極端の間の中間の位置が求められます。
実際には、この問題に関する完全な理論は存在しないため、この妥協点は、相互検証やホールドアウト試験などの経験的な方法を使用して発見されます。これらは、基本分類子の適切な強度を測定するために使用されます。
この最適なアンサンブルの検索には、通常、基本分類子とアンサンブル自体のパラメーターの調整が含まれるため、そのようなパラメーターの数はできるだけ少なくすることが望ましいです。そうでない場合、パラメータサーチスペースの次元はすぐに、グローバルな最小値を見つけることは計算上扱いにくいことを意味します。すでに述べたように、決定木は、パラメーターを必ずしも調整しなくても効果的に使用できるため、人気のある選択肢です。
ランダムフォレスト
主にバギングされた決定木であるランダムフォレストは、強い確率的コンポーネント[ツリー内の各決定ノードでの少数の特徴/因子の順列]を注入することにより、ツリーの大きな不安定性を利用して、集団内に多様性を生み出します。ツリーの各ノードには、機能の新しいランダムな選択が提示されるため、ツリーは非常に多様です。アンサンブルには、多様な木のコレクションの分散とバイアスを平均化する効果があります。
単純ベイズ分類器、またはSVMなどの他の安定した基本分類器の「ランダムフォレスト」を効果的にするには、確率的要素を追加する必要があります。安定した分類子の場合、バギングから生じるようなトレーニングデータの比較的小さな変動は、非常に類似した分類子につながります。
多様性を高めるために、他のアプローチを適用することができます。たとえば、各基本分類子に表示される特徴を並べ替えます。これには、利用可能な重要な多様性が機能セットの組み合わせの数に制限されるという制限があります。組み合わせが使い果たされると、既存のメンバーに異なる方法で投票するアンサンブルで使用できる新しい分類子はありません。
機能が比較的少ない問題の場合、これは利用可能な分類子のプールを厳しく制限します。たとえば、トレーニングデータを積極的にサブサンプリングすることにより、ランダム性のさらなるソースを注入することが可能です。証拠は、一般的なケースでは、そのようなアプローチは、ランダムフォレストが提供するバイアスと多様性の特定のブレンドよりも劣っていると思われます。
ノードが少なく、トレーニングの量が制限されている多層パーセプトロン(ニューラルネットワーク)などの他の不安定な基本分類子や、確率的識別などのポイントベースの空間充填アプローチをうまく利用して、集団法に多様性を注入することができます。確かにMLPの場合、ある程度のパラメータ調整が不可欠です。
ブースト
ブースティングでは、バギングで採用されている単純な凝集モデルとは異なる方法でアンサンブルを構築します。バギングをフラットアンサンブルモデルであると考える場合、概念的にはブースティングによって階層化された分類子が構築されると思います。
ブースティングの各ラウンドでは、前のラウンドの誤分類に従って重み付けまたは再サンプリングされたトレーニングデータから構築された潜在的な分類器のセットから新しい分類器を選択します。全体の集団誤差を最小限に抑えるように、新しい分類子が選択されます。
これは、ランダムな森林集団の構築に再選された選択基準がないこととは対照的です。新しい基本分類子はそれぞれ、既存のアンサンブルの弱点に焦点を合わせる必要があり、その結果、ブーストが積極的にトレーニングエラーを押し下げます。
アンサンブル構築の初期段階では、ブースティングには弱い分類子がほとんどなく、それぞれがトレーニングスペースのさまざまな領域に焦点を当てています。これの効果は主にバイアスを減らすことです。アンサンブルのサイズが大きくなるにつれて、バイアス低減の範囲が縮小し、分散からの誤差が改善されます。
ブースティングのための基本分類器の不安定性の利点は、集合が大きくなるにつれて、残りの誤って分類された例の数が減少することです。残りのサンプルについて、以前のサンプルとは異なる有用なビューを採用する分類器を生成するには、高度な多様性が必要です。
このアプローチの威力は、MLPが一般に非常に効果的であることが証明されているものの、意思決定の切り株だけで許容可能な結果が得られるという事実からわかる。
誤って分類された例にこのように常に焦点を合わせているため、ブースティングの弱点は、ノイズの影響を受けやすく、ある程度、この失敗に対処しようとするLogitboostです。
無料ランチなし
機械学習の大規模な統一理論は存在せず、特定の分類子の結果は、使用されるデータのタイプに大きく依存することを覚えておく価値があります。したがって、先験的に、類似のデータを使用した以前の実験から得られたコンセンサスと、さまざまなデータセットにわたるアルゴリズムによって示された一般的なユーティリティ以外に、1つの分類子タイプが別の分類子タイプよりも優れていると断定する理由はありません。良い解決策を得るには、いくつかの一般的なアプローチを試してみるとよいでしょう。