ブースティングでは、なぜ学習者は「弱い」のですか?


28

stats.SEに関する同様の質問も参照してください。

高めるようなアルゴリズムのAdaBoostLPBoostを「弱い」学習者が唯一のウィキペディアから、有用であることがより良いチャンスよりも実行する必要が合成されることが知られています:

使用する分類器は弱い(つまり、かなりのエラー率を表示する)場合がありますが、パフォーマンスがランダムでない限り(バイナリ分類のエラー率が0.5になる場合)、最終モデルが改善されます。ランダムな分類器から予想されるエラー率よりも高いエラー率の分類器でさえ、分類器の最終線形結合に負の係数を持ち、したがってその逆のように動作するため、有用です。

  • 強い学習者ではなく、弱い学習者を使用する利点は何ですか?(たとえば、「強力な」学習方法でブーストしない理由-過剰適合しやすいのでしょうか?)

  • 弱い学習者にとってある種の「最適な」強さはありますか?そして、これはアンサンブルの学習者の数に関連していますか?

これらの質問に対する答えを裏付ける理論はありますか?


弱い学習者は、トレーニングデータへの過剰適合も回避します
アマンディープゴータム

回答:


15

したがって、ブースティングは学習アルゴリズムであり、サブルーチンとして別のアルゴリズムを使用して高精度の予測を生成できます。これにより、ランダムな推測よりもわずかに優れた仮説を効率的に生成できます(逆多項式によって)。

主な利点は速度です。

1990年にSchapireがそれを発表したとき、1/2よりわずかに小さい誤差を持つ仮説を生成する多項式時間学習器は、任意の小さな誤差を持つ仮説を生成する多項式時間学習器に変換できることを示したという点で画期的でした。

したがって、あなたの質問を裏付ける理論は、「弱い学習可能性の強さ」pdf)にあり、基本的に「強い」学習と「弱い」学習は同等であることを示しました。

おそらく、元の質問に対する答えは、「弱い学習者をより安く構築できるのに、強力な学習者を構築しても意味がない」ということです。


比較的最近の論文からは、「弱い学習可能性と線形分離可能性の同等性について:新しい緩和と効率的なブースティングアルゴリズム」pdf)がありますが、これは理解できませんが、より教育を受けた人々に関連していると思われる:)


1
素敵なリファレンスを+1。おそらく、答えは「弱い学習者をより安く構築できるのに、強力な学習者を構築しても意味がない」ということでしょうか?
tdc

ええ、そのように聞こえます-答えを更新しました!また、私が正しく理解していれば、これはあなたの弱い学習者の強さに依存しません-彼らはただランダムより「少し」良くなければなりません。
アンドレイスター

1
あなたとあなたの両方が本当に意味しているのは、多くの安価な弱い学習者を単に組み合わせることで、同様の、またはさらに優れたスキルに到達できる場合、費用のかかる強い学習者を構築する意味はないと思います。確かに、強い学習者によって達成されるスキルが弱い学習者によって達成されるスキルよりもはるかに高ければ、それで私は完全に強い学習者を構築することのポイントを見ることができました...
Antoine

9

まだ言及されていない過剰適合について、より直感的な説明で説明します。最初の質問は:

強い学習者ではなく、弱い学習者を使用する利点は何ですか?(たとえば、「強力な」学習方法でブーストしない理由-過剰適合しやすいのでしょうか?)

私の理解では、主な理由は次のとおりです。

  • 速度、他の回答でかなりよく説明されているとおり。
  • 精度の向上:既に強力な学習者がいる場合、後押しの利点はそれほど重要ではありません。
  • ご想像のとおり過剰適合を避けてください。次のように考えてください:

ブースティングとは、仮説空間からの多くの異なる仮説を組み合わせて、最終的な仮説をより良くすることです。したがって、ブースティングの大きな力は、仮説の多様性からもたらされます。

強力な学習器を使用する場合、この多様性は減少する傾向があります:各反復の後、多くのエラーがなくなり(モデルが複雑であるため)、ブーストは新しい仮説を大きく変更しません。非常に類似した仮説では、アンサンブルは単一の複雑なモデルに非常に類似しており、その結果、オーバーフィットする傾向があります!


4
これが本当の答えです。
マシュードゥルーリー

6

ブースティングでは、強い学習者と比べてより速く訓練されるため、ほとんどの場合、弱い学習者を使用します。考えてみてください。Multi-Layer Neural Networkを学習者として使用する場合、それらの多くをトレーニングする必要があります。一方、決定木ははるかに高速である場合があり、それから私はそれらの多くを訓練することができます。

100人の学習者を使用するとします。100秒でNNをトレーニングし、10秒で決定木をトレーニングします。NNを使​​用した最初のブーストには10​​0 * 100秒かかり、デシジョンツリーを使用した2回目のブーストには10​​0 * 10秒かかります。

それは、ブーストに強い学習者を使用する記事を見たということです。しかし、その問題では、強力な学習者は私の意見では速かったです。

Wekaを使用して、KDD99侵入検知データセット(400万以上)でMLPをトレーニングしようとしました。私のマシンでは72時間以上かかりました。ただし、ブースト(AdaBoostM1 with Decision Tree-Decision Stump)には3時間しかかかりませんでした。この問題では、強い学習者、つまり時間がかかりすぎる学習者ではブースティングを使用できないことは明らかです。


1
「ブースティングに強力な学習者を使用する記事を見ました」-参考文献はありますか?
tdc
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.