弱い学習者の「強さ」について


22

アンサンブル学習(ブースティングなど)の弱学習者に関するいくつかの密接に関連した質問があります。

  1. これは愚かに聞こえるかもしれませんが、強力な学習者とは対照的に、弱者を使用する利点は何ですか?(たとえば、「強力な」学習方法で強化しないのはなぜですか?)
  2. 弱い学習者に何らかの「最適な」強度がありますか(たとえば、他のすべてのアンサンブルパラメーターを固定したまま)。彼らの強さになると「スイートスポット」はありますか?
  3. 結果のアンサンブル法の強度に関して、弱学習器の強度をどのように測定できますか。アンサンブルを使用することの限界利益をどのように定量的に測定しますか?
  4. いくつかの弱学習アルゴリズムを比較して、特定のアンサンブルメソッドに使用するアルゴリズムを決定するにはどうすればよいですか?
  5. 特定のアンサンブルメソッドが強力な分類器よりも弱い分類器を支援する場合、特定の分類器が既に「強すぎる」と判断して、ブースト時に重要なゲインを得るにはどうすればよいでしょうか。

回答:


16

これはバギングの精神にあるかもしれませんが、それでもなお:

  • 強い学習者が本当にいるのであれば、アンサンブルなどで改善する必要はありません。
  • 私は言うだろう...無関係です。ブレンディングとバギングは些細なことですが、ブーストを強すぎると、分類器が収束しなくなる可能性があります(つまり、幸運な予測が純粋なノイズを予測するために次の反復を行い、パフォーマンスを低下させる可能性があります)が、これは通常、進行中の反復で修復されます
  • 繰り返しますが、これは本当の問題ではありません。これらの方法の核心は

    1. 部分的な分類器を強制的に問題の詳細を調べます。
    2. 予測を結合してノイズを減衰させ、信号を増幅します。

    1)ブースティングに注意を払う必要があります(つまり、優れたブーストスキーム、部分学習者の振る舞い-これは主にブースト全体の実験によって判断される)、2)バギングとブレンド(主に学習者間の相関の欠如を保証する方法)そして、アンサンブルをオーバーノイズしないでください)。これが問題ない限り、部分分類器の精度は3次の問題です。


@mbqに感謝します。上記は、弱い分類器は通常、強力な分類器よりもアンサンブルメソッドの恩恵を受けることを意味しますか?(つまり、ブースティングは、強力な分類器よりも弱い分類器を支援します)。この意味で、与えられた分類子が特定のアンサンブルメソッドに対して十分に強力であることをどのようにして知ることができますか?(たとえば、ブーストしてもあまりメリットのない強力な学習者がいることをおおよそどのように伝えることができますか?)
アメリオバスケスレイナ

1
むしろ、弱い分類器のみが改善の余地を与えます。一般的に、強度は抽象的な品質であり、実際に測定することはできません。唯一の特定のテストは、実験を行い、アンサンビングによってパフォーマンスが大幅に向上するかどうかを確認することです。もしそうなら、分類器は弱かった。いいえ、まあ、私たちはまだ何も知りません。

11

まず、「弱い」と「強い」という概念は、弱く定義されているだけです。私の観点から、それらは最適なベイズ分類器に関連して定義される必要があります。これは、任意のトレーニングアルゴリズムのターゲットです。これを念頭に置いて、3つのポイントに対する私の回答は次のとおりです。

  1. 私が見るように計算。私が知っているほとんどの弱学習者は計算が高速です(そうでなければ考慮に値しません)。アンサンブル学習の主なポイントは、正確かつ単純ではあるがそれほど良くない学習者を組み合わせて、誤り率を改善できることです。強力な(計算量の多い)学習者を使用すると、改善の余地は小さくなりますが、計算コストは​​大きくなり、アンサンブルメソッドの使用は面白くなくなります。さらに、1人の強い学習者の方が解釈しやすいかもしれません。ただし、弱いものと強いものは、私たちが達成しようとする問題と最適なベイズ率に依存します。したがって、多くの場合、強いと考えられている学習者が、ブーストし、ブースティングが計算的に実行可能な場合、まだ改善の余地が残っている場合は、ブーストを実行します...
  2. これは、「最適」を測定するために使用する基準に依存します。エラー率に関しては、私はノーと言います(他の人が別の経験を持っている場合は修正を歓迎します)。速度の面では、多分ですが、これは非常に問題に依存していると思います。私はこれを扱っている文献を知りません、ごめんなさい。
  3. 相互検証、相互検証、相互検証。予測を目的とするトレーニング方法の他の比較と同様に、比較のための一般化誤差の不偏推定値が必要です。これは、テストデータセットを脇に置くか、相互検証によってこれを近似することで実現できます。

@NRHに感謝します。それはとても役に立ちます。私は3番目の質問を2つの別々の質問に分けました。それらはおそらく異なる答えを必要とするからです。
アメリオバスケスレイナ

それで、分類器が最適なベイズ分類器にどれだけ近いかを知る方法はありますか?すでに十分に近い場合、改善することはできません。
highBandWidth

@highBandWidth、ベイズ率を知ることは不可能です。未知の分布に依存する理論量です。理論的仮定は下限(漸近)の上限を提供する可能性があり、クロス検証または独立したテストデータを使用することにより、上限を正確に推定することが可能です。しかし、分布がわからない限り、そのような上限がきついかどうかを見分けることも、改善の余地を残すこともできません。
NRH
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.