ブースティング法が外れ値に敏感な理由

12

ブースティング方法は外れ値に敏感であると述べている記事を多く見つけましたが、その理由を説明する記事はありません。

私の経験では、外れ値はどの機械学習アルゴリズムにとっても悪いのですが、なぜブースティング法が特に敏感であると特定されているのですか？

ブースターツリー、ランダムフォレスト、ニューラルネットワーク、SVM、ロジスティック回帰などの単純な回帰法など、外れ値に対する感度の観点から、次のアルゴリズムはどのようにランク付けされますか？

— セルローン
ソース

1

明確にするために編集しました（また、行の先頭にスペースを入れた場合、stackexchangeはそれをコードとして扱います）。あなたの2番目のパラにとって、ブーストは何ですか？感度を定義する必要がある場合があります。

— ジェレミーマイルズ

1

また、外れ値とノイズは同じものではありません。

— ジェレミーマイルズ

この質問にはまだ解決済みのマークを付けません。ブースティングが実際に他の方法よりも外れ値に苦しんでいるかどうかは明らかではありません。受け入れられた答えは主に確認バイアスのために受け入れられたようです。

— rinspy

これらの記事をいくつか教えてください。

— acnalb

11

ブースターは、前のツリーの残差/エラーに基づいて各ツリーを構築するため、外れ値はブースティングに悪い場合があります。異常値は非異常値よりもはるかに大きな残差を持つため、勾配ブースティングはそれらのポイントに不均衡な注意を集中させます。

— ライアン・ゾッティ
ソース

2

OPにより多くの数学的詳細を与えることができればより良いでしょう！

— -Metariat

5

@Matematticaここで数学的な詳細を追加すると、さらに明確になります。これは、ツリーの勾配のシンボルであり、その後のツリーの学習率になります。

— ライアンゾッティ

1

@RyanZotti：Metariatに同意します。より正式な表記法は混乱を解決します。たとえば、「外れ値には非外れ値よりもはるかに大きな残差がある」という文では、残差は何に相当するのでしょうか？推定モデルですか、それとも本当ですか？前者の場合、それは一般的に真実ではなく、後者の場合、それは無関係です。

— user603

1

指定したアルゴリズムは分類用であるため、ターゲット変数の外れ値ではなく、入力変数の外れ値を意味すると想定しています。ブーストツリーメソッドは、基本学習器がツリー分割であるため、入力フィーチャの外れ値に対してかなり堅牢である必要があります。たとえば、スプリットがx > 35の場合、5,000,000は同じように扱われます。これは良いことかもしれませんし、そうでないかもしれませんが、それは別の質問です。

代わりに、ターゲット変数の回帰と外れ値について話している場合、ブーストツリー法の感度は使用するコスト関数に依存します。もちろん、差は二乗され、ブーストは損失（の勾配）を収めようとするため、二乗誤差は外れ値の影響を受けやすくなります。ただし、フーバー損失や絶対損失などのブーストツリー法に使用できるより堅牢なエラー関数があります。

— ZakJ
ソース

0

ブースティングでは、データのサブセットをランダムに選択するのではなく、アルゴリズムの結果が不十分なデータセットを選択しようとします。これらの難しい例は学習するのに重要なものです。そのため、データセットに多くの外れ値があり、アルゴリズムがそれらの例でうまく機能していない場合、それらの難しい例を学習するよりもアルゴリズムはそれらの例でサブセットを選択しようとします。

— ウェールドサイアル
ソース