タグ付けされた質問 「boosting」

弱予測モデルを強予測モデルに組み合わせるアルゴリズムのファミリー。最も一般的なアプローチは勾配ブースティングと呼ばれ、最も一般的に使用される弱いモデルは分類/回帰ツリーです。

1
バギング技術を使用して、多くの勾配ブースティングツリーを組み合わせることができますか?
勾配ブースティングツリーとランダムフォレストに基づいています。GBDTとRFは、バイアスと分散に取り組むために異なる戦略を使用しています。 私の質問は、複数のGBDTをトレーニングし、それらの予測を最終結果として組み合わせるために、データセットを(置き換えて)リサンプリングできるということです。 GBDTを基本学習者として使用してランダムフォレストを構築するのと同じです アイデアは、GBDTがデータセットをオーバーフィットする可能性があることです(完全に成長する決定木と同様、低バイアス、高分散)。バギング手法を使用することでこの問題も軽減でき、パフォーマンスを向上させたいと思います。 なにか提案を?

2
ブースティング手法では、他のアンサンブル方法と同様に投票を使用しますか?
投票を使用して、すべてのアンサンブルメソッドを一般化できますか?ブースティングメソッドも投票を使用して、弱学習者を最終モデルに入れますか? テクニックについての私の理解: ブースティング:正しく分類されなかったデータポイントをブーストするために、弱学習器を継続的に追加します。 アンサンブル手法:複数の学習者を使用して、1人の学習者よりも優れた予測を取得します。これはウィキペディアで説明されています。

2
学習率を低くすると、GBMのパフォーマンスがどのように低下​​しますか?
私は、gbm(勾配ブーストツリーモデル)の学習率を下げても、モデルのサンプルパフォーマンスを損なうことはないという民俗の知識に常に同意しています。今日は、よくわかりません。 私はモデルを二乗誤差の合計を最小化してボストンハウジングデータセットに適合させています。これは、20%ホールドアウトテストデータセットのツリー数によるエラーのプロットです。 最後に何が起こっているのかを理解するのは難しいので、ここに極端な拡大バージョンがあります 0.010.010.01 これはどのように最もよく説明されますか? これはボストンデータセットの小さなサイズのアーティファクトですか?数十万または数百万のデータポイントが存在する状況については、よりよく理解しています。 グリッド検索(または他のメタアルゴリズム)で学習率の調整を開始する必要がありますか?

2
ブースティングの基本分類子
AdaBoostなどのブースティングアルゴリズムは、複数の「弱い」分類子を組み合わせて、単一のより強力な分類子を形成します。理論的には、基本分類子でブースティングが可能であるはずですが、実際には、ツリーベースの分類子が最も一般的であるようです。 どうしてこれなの?ツリー分類子のどのプロパティがこのタスクに最適ですか?ブースティングのメリットが大きい他の基本分類子はありますか?分類の問題を念頭に置いて質問しますが、回帰アプリケーションに関する回答にも興味があります。

2
予測を組み合わせて全体的な予測品質を向上させることは可能ですか?
これはバイナリ分類の問題です。最小化されているメトリックは、対数損失(またはクロスエントロピー)です。私の情報のためだけに、私は正確さの数値も持っています。非常にバランスの取れた大規模なデータセットです。非常に単純な予測手法では、約50%の精度と0.693の対数損失があります。私がかき集めることができた最高のものは、52.5%の精度と0.6915のログ損失です。ログの損失を最小限に抑えようとしているため、常に一連の確率(predict_probasklearnおよびkerasの関数)が得られます。それがすべての背景ですが、今は問題です。 2つの異なる手法を使用して、同等の精度とログ損失メトリックを持つ2つの異なる予測セットを作成できるとしましょう。たとえば、入力フィーチャの2つの異なるグループを使用して、2つのセットの予測を生成できます。どちらも約52%正確で、<0.692のログ損失です。重要なのは、どちらの予測セットも予測力があることを示しているということです。別の例は、ロジスティック回帰を使用して1つの予測セットを生成し、ニューラルネットを使用してもう1つの予測セットを生成することです。 たとえば、各セットの最初の10は次のとおりです。 p1 = [0.49121362 0.52067905 0.50230295 0.49511673 0.52009695 0.49394751 0.48676686 0.50084939 0.48693237 0.49564188 ...] p2 = [0.4833959 0.49700296 0.50484381 0.49122147 0.52754993 0.51766402 0.48326918 0.50432501 0.48721228 0.48949306 ...] 全体的な予測力を高めるために、2つの予測セットを1つに組み合わせる方法が必要だと考えています。ある? 私はいくつかのことを試し始めました。たとえば、予測の絶対値から0.5(abs( p - 0.5 ))を引いたものを信号と見なし、その間p1でp2信号が大きい場合は、その値を使用します。これは私が望んでいたことをわずかに達成しましたが、ほんのわずかなマージンでした。そして別の例では、それはまったく役に立たなかったようです。興味深いことに、予測力を破壊するようには見えませんでした。

4
勾配ブースティング-極端な予測と0.5に近い予測
2つの異なるデータセットで2つの異なるGradient Boosting Classifierモデルをトレーニングするとします。あなたは、one-one-out交差検証を使用し、2つのモデルが出力する予測のヒストグラムをプロットします。ヒストグラムは次のようになります。 この: したがって、1つのケースでは、予測(サンプル外/検証セット)はほとんどが極端(0と1に近い)であり、他のケースでは、予測は0.5に近いです。 それぞれのグラフから何が推測できますか?どのように違いを説明できますか?データセット/機能/モデルについて何か言えることはありますか? 私の直感は、最初のケースでは、機能はデータをよりよく説明するので、モデルはデータによりよく適合します(そして、おそらくデータに適合しますが、必ずしもそうではありませんが、検証/テストセットのパフォーマンスは、機能は実際にデータをよく説明しています)。2番目のケースでは、機能がデータを適切に説明しないため、モデルがデータに近すぎません。ただし、2つのモデルのパフォーマンスは、精度と再現率の点で同じである可能性があります。それは正しいでしょうか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.