「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか?弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか?
AdaBoostのアルゴリズムでは、T=10
。それはどういう意味ですか?なぜ選択するのT=10
ですか?
「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか?弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか?
AdaBoostのアルゴリズムでは、T=10
。それはどういう意味ですか?なぜ選択するのT=10
ですか?
回答:
「弱い」学習者(分類子、予測子など)は、パフォーマンスが比較的低い人にすぎません。その精度は偶然ではありませんが、やっとです。常にではありませんが、多くの場合、計算が単純であるという追加の意味合いがあります。弱い学習者は、アルゴリズムの多くのインスタンスが(ブースティング、バギングなどを介して)プールされ、「強力な」アンサンブル分類器を作成することも示唆しています。
Freund&SchapireによるオリジナルのAdaBoost論文で言及されています。
おそらくこれらのアプリケーションの中で最も驚くべきことは、「ブースト」のための新しいアプリケーションの派生、つまり、ランダムな推測よりもわずかに優れた「弱い」PAC学習アルゴリズムを任意の高精度のアルゴリズムに変換することです。- (フロイント&シャピレ、1995)
しかし、このフレーズは実際にはそれよりも古いと思います。1980年代のMichael Kearnsによる用語ペーパー(?!)を引用する人がいるのを見てきました。
弱学習器の典型的な例は、1レベルの決定木である意思決定スタンプです(1RまたはOneRは別の一般的に使用される弱学習器です。かなり似ています)。SVMのパフォーマンスが低い場合でも、SVMを「弱学習器」と呼ぶのはやや奇妙ですが、単独で驚くほどうまく動作する場合でも、単一の決定スタンプを弱学習器と呼ぶことは完全に合理的です。
について魔法のようなものがあるかどうかはわかりません。1995年の論文では、Tは無料のパラメーターとして指定されています(つまり、自分で設定します)。
弱学習器は、データにラベルを付けようとするとき、トレーニングデータの分布が何であれ、常に偶然より優れている学習者です。偶然よりうまくやることは、常にエラー率が1/2未満になることを意味します。
これにより、最終的に弱い学習者が改善され、強い学習者に変換されます。
詳細については、https://youtu.be/zUXJb1hdU0kを参照してください。
弱学習器は、弱分類器または弱予測器と同じです。アイデアは、分類器を使用するということです。それは、まあ...ではありませんが、少なくともランダムではありません。利点は、分類器が過適合に対して堅牢であることです。もちろん、1つだけを使用するのではなく、それらの大規模なセットを使用します。各セットはランダムよりも若干優れています。それらを選択/結合する正確な方法は、AdaBoostなどの方法論/アルゴリズムによって異なります。
実際には、弱分類器として、単一の機能で単純なしきい値のようなものを使用します。機能がしきい値を超えている場合は、ポジティブに属すると予測し、そうでない場合は、ネガティブに属すると判断します。コンテキストがないため、T = 10についてはわかりませんが、何らかの機能のしきい値設定の例であると推測できます。