「弱い学習者」とはどういう意味ですか？

34

「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか？弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか？

AdaBoostのアルゴリズムでは、T=10。それはどういう意味ですか？なぜ選択するのT=10ですか？

— ヴルシャリ
ソース

1

@vrushaliサイトへようこそ。これを編集して、英語をよりスムーズにしました。まだあなたの言うことを言っていることを確認してください。また、2番目の質問（adaboostについて）が1番目の質問と同じかどうかもわかりません。それらを異なるスレッドに分離する方が理にかなっている場合があります。

— GUNG -復活モニカ

35

「弱い」学習者（分類子、予測子など）は、パフォーマンスが比較的低い人にすぎません。その精度は偶然ではありませんが、やっとです。常にではありませんが、多くの場合、計算が単純であるという追加の意味合いがあります。弱い学習者は、アルゴリズムの多くのインスタンスが（ブースティング、バギングなどを介して）プールされ、「強力な」アンサンブル分類器を作成することも示唆しています。

Freund＆SchapireによるオリジナルのAdaBoost論文で言及されています。

おそらくこれらのアプリケーションの中で最も驚くべきことは、「ブースト」のための新しいアプリケーションの派生、つまり、ランダムな推測よりもわずかに優れた「弱い」PAC学習アルゴリズムを任意の高精度のアルゴリズムに変換することです。- （フロイント＆シャピレ、1995）

しかし、このフレーズは実際にはそれよりも古いと思います。1980年代のMichael Kearnsによる用語ペーパー（？！）を引用する人がいるのを見てきました。

弱学習器の典型的な例は、1レベルの決定木である意思決定スタンプです（1RまたはOneRは別の一般的に使用される弱学習器です。かなり似ています）。SVMのパフォーマンスが低い場合でも、SVMを「弱学習器」と呼ぶのはやや奇妙ですが、単独で驚くほどうまく動作する場合でも、単一の決定スタンプを弱学習器と呼ぶことは完全に合理的です。

Adaboostは反復アルゴリズムであり、

は通常、反復または「ラウンド」の回数を示します。アルゴリズムは、データで弱学習器をトレーニング/テストし、各例を均等に重み付けすることから始まります。誤って分類された例は次のラウンドで重みが増加し、正しく分類された例では重みが減少します。

T

$T$

について魔法のようなものがあるかどうかはわかりません。1995年の論文では、は無料のパラメーターとして指定されています（つまり、自分で設定します）。 $T=10$ $T$

— マット・クラウス
ソース

私が知る限り、DecisionStumpは1Ruleとは異なります。意思決定スタンプは、常にバイナリ1レベルツリーです（名義属性と数値属性の両方）。1Ruleは2つ以上の子を持つことができ（名義および数値の両方）、数値属性の場合、値によるバイナリ分割よりも複雑なテストがあります。また、WEKAには、DecisionStumpとOneRの2つの異なる実装があります。

— ラパイオ14年

うーん...私はあなたが正しいと思います。元の1Rペーパーは、「このペーパーで調べた特定の種類のルール（1-ルールと呼ばれる）は、単一の属性に基づいてオブジェクトを分類するルールです（つまり、1レベルの決定ツリーです）」さまざまな方法の多くで実装することが、私がアップしていることは明らか編集します。。

— マット・クラウス

ネイティブOneR実装もあります：CRAN上のOneRパッケージ：CRAN.R-project.org/package=OneR、ここにビネットがあります：cran.r-project.org/web/packages/OneR/vignettes/OneR。 html（完全開示：私はこのパッケージの作成者です）。

— -vonjd

7

弱学習器は、データにラベルを付けようとするとき、トレーニングデータの分布が何であれ、常に偶然より優れている学習者です。偶然よりうまくやることは、常にエラー率が1/2未満になることを意味します。

$X$ $Y$

$H_x$ $Y$

これにより、最終的に弱い学習者が改善され、強い学習者に変換されます。

詳細については、https：//youtu.be/zUXJb1hdU0kを参照してください。

— アニッシュ・シン・ワリア
ソース

CVへようこそ。ここは初めてなので、新しいユーザー向けの情報が記載されたツアーを利用することをお勧めします。。この答えは、新しいものを提供したり、以前の答えを改善したりしないようです。前のものに何か欠けていると思いますか？

— TEG-モニカの復活

なぜ1/2未満である必要があります。エラー率が1/2を超える場合は、弱い分類器にもなります。

— コード教皇

@CodePope、私はあなたのポイントを得たが、実際には「弱い学習者」はそのような用語で正式に定義されています。誤差が50％を超えるモデルも同様に貧弱で弱いことに同意します。しかし、科学者によって定義された正式な定義について言えば、弱い学習者とは、誤差が1/2または50％未満のものです。

— アニッシュシンワリア

1

弱学習器は、弱分類器または弱予測器と同じです。アイデアは、分類器を使用するということです。それは、まあ...ではありませんが、少なくともランダムではありません。利点は、分類器が過適合に対して堅牢であることです。もちろん、1つだけを使用するのではなく、それらの大規模なセットを使用します。各セットはランダムよりも若干優れています。それらを選択/結合する正確な方法は、AdaBoostなどの方法論/アルゴリズムによって異なります。

実際には、弱分類器として、単一の機能で単純なしきい値のようなものを使用します。機能がしきい値を超えている場合は、ポジティブに属すると予測し、そうでない場合は、ネガティブに属すると判断します。コンテキストがないため、T = 10についてはわかりませんが、何らかの機能のしきい値設定の例であると推測できます。

— iliasfl
ソース