勾配ブースティングについて学習している間、このメソッドがモデルの構築とアンサンブルに使用する「弱い分類器」のプロパティに関する制約について聞いたことがありません。しかし、線形回帰を使用するGBのアプリケーションを想像することはできませんでした。実際、いくつかのテストを実行したとき、それは機能しません。私は、残差の平方和の勾配で最も標準的なアプローチをテストし、後続のモデルを一緒に追加していました。
明らかな問題は、最初のモデルからの残差が、もはや適合する回帰線が実際に存在しないような方法で取り込まれることです。私の別の観察では、後続の線形回帰モデルの合計も単一の回帰モデルとして表現できるため(すべての切片と対応する係数を追加)、モデルをどのように改善できるか想像できません。最後の観察結果は、線形回帰(最も一般的なアプローチ)は損失関数として二乗残差の合計を使用していることです-GBが使用しているものと同じです。
また、学習率を下げるか、各反復で予測子のサブセットのみを使用することも考えましたが、それでも最終的には単一のモデル表現にまとめることができるため、改善はないと思います。
ここで何が欠けていますか?Gradient Boostingで使用するのに線形回帰は何らかの形で不適切ですか?それは、線形回帰が損失関数として残差の二乗和を使用しているからでしょうか?グラディエントブースティングに適用できるように、弱い予測子には特定の制約がありますか?