ブースト回帰ツリー（BRT）、一般化ブーストモデル（GBM）、および勾配ブースティングマシン（GBM）の調整

質問：

ブースト回帰ツリー（BRT）と一般化ブーストモデル（GBM）の違いは何ですか？それらは交換可能に使用できますか？一方は他方の特定の形式ですか？
RidgewayがFriedmanが以前に "Gradient Boosting Machine"（GBM）として提案していたものを説明するために "Generalized Boosted Regression Models"（GBM）というフレーズを使用したのはなぜですか？これらの2つの頭字語は同一であり、同じことを説明していますが、異なるフレーズに由来しています。

バックグラウンド：

BRTとGBMの用語の違いを判断するのに苦労しています。私が理解していることから、両方とも、ある種のブースティング（たとえば、バギング、ブートストラップ、クロス検証）を通じて確率論が組み込まれた分類および回帰ツリーを説明する用語です。また、私が収集したものから、GBMという用語は、フリードマン（2001）の論文「グリーディ関数近似：勾配ブースティングマシン」で最初に作られたものです。Ridgewayは、2006年にパッケージ「Generalized Boosted Regression Models（GBM）」でFriedmanが説明した手順を実装しました。私の分野では（生態学）Elith et al。（2008）は、gbm種分布モデリングのためのリッジウェイのパッケージを最初に実証したものです。しかし、エリスらの著者。「ブースト回帰ツリー」（BRT）という用語を使用して、フリードマンとリッジウェイを説明します。

これらの用語を同じ意味で使用できるかどうか混乱していますか？ある著者が、前の著者が提案したのと同じ理論を説明するのに同じ頭字語を（別のフレーズから）使用することはやや混乱します。この理論を生態学的な用語で説明するときに、3人目の著者がまったく異なる用語を使用したことも混乱しています。

私が思いつくことができる最高のものは、BRTが分布が二項分布であるGBMの特定の形式であるということですが、私はこれについて確信が持てません。

エリス他このようにブーストされた回帰ツリーを定義します... "ブーストされた回帰ツリーは、2つのアルゴリズムの強みを組み合わせたものです：回帰ツリー（再帰的なバイナリ分割によって予測子への応答を関連付けるモデル）とブースティング（多くの単純なモデルを組み合わせて予測パフォーマンスを向上させる適応手法））最終的なBRTモデルは、個々の項が単純なツリーであり、順方向の段階的な方法で当てはめられた加法回帰モデルとして理解できます」（Elith et al。2008）。

machine-learning boosting gbm

— GNG
ソース

私は著者の頭の中に入ってあなたに話すことはできませんが、名前がすべてを言っているのはもっともらしいようです。ブースティングは、一連の弱学習器を使用する方法です。典型的な方法は、切り株などの「小さな木」です。回帰ツリーモデルをブーストすると、ブーストされた回帰ツリーが得られます。演繹的には、カテゴリカルメソッドを含む他のメソッドをブーストし、ブースト回帰ツリーではない勾配ブースティングマシンと呼ばれるものを返すことができます。

— me

私は詳細を手元で思い出しませんが、私が読んだ1冊の本は、木の切り株を使用した場合、結果が非常にガムに似ていることを指摘しました。

— me

@aginenskyがコメントスレッドで言及したように、著者の頭に入るのは不可能ですが、BRTはおそらくgbmのモデリングプロセスのより明確な説明である可能性が高いです。そして、ブースティング、勾配、および回帰ツリーについて尋ねてきたので、用語の簡単な英語の説明を次に示します。参考までに、CVはブースティング手法ではなく、サンプリングを繰り返して最適なモデルパラメータを特定するのに役立つ手法です。プロセスの優れた説明については、こちらをご覧ください。

ブースティングは、アンサンブル法の一種です。アンサンブルメソッドは、いくつかの個別のモデルからの予測を集約することによって最終予測が行われるメソッドのコレクションを指します。ブースティング、バギング、およびスタッキングは、広く実装されているいくつかのアンサンブルメソッドです。スタッキングでは、（独自に選択した任意の構造の）多数の異なるモデルを個別にフィッティングし、それらを単一の線形モデルに結合します。これは、従属変数に対して個々のモデルの予測を当てはめることによって行われます。LOOCV SSEは通常、回帰係数を決定するために使用され、各モデルは基底関数として扱われます（私の考えでは、これはGAMに非常によく似ています）。同様に、袋詰め同様に構成された多数のモデルをブートストラップされたサンプルに適合させることを含みます。再び明白なことを述べるリスクがありますが、スタッキングとバギングは並列アンサンブル法です。

ただし、ブースティングは順次方式です。フリードマンとリッジウェイの両方が論文でアルゴリズムのプロセスを説明しているので、ここでは2番目に挿入しませんが、プレーンな英語（そして多少簡略化）のバージョンでは、モデルを次々に適合させ、後続の各モデルを最小化しようとします以前のモデルのエラーによって重み付けされた残差（収縮パラメーターは、前の反復からの各予測の残差エラーに割り当てられた重みであり、許容できるほど小さいほうがよい）。抽象的な意味で、ブースティングは、実行する必要があるタスクの新しい反復に過去の経験を適用する、非常に人間に似た学習プロセスと考えることができます。

現在、全体の勾配部分は、gbm過剰適合を回避するために予測に使用されるモデルの最適な数（ドキュメントでは反復と呼ばれます）を決定するために使用される方法に由来しています。 GBMトレーニング（黒）およびCVエラー（緑）損失関数

上の図からわかるように（これは分類アプリケーションですが、回帰でも同じです）、アルゴリズムがCVエラーを最大化するモデルを選択するため、CVエラーは平坦化する前に最初はかなり急に減少しますアンサンブルがオーバーフィットし始めると、再び上に登ります。最適な反復数は、CVエラー関数の変曲点（関数の勾配が0に等しい）に対応する反復数であり、青色の破線で簡単に示されています。

リッジウェイのgbm実装では分類ツリーと回帰ツリーを使用しており、私は彼の心を読むと主張することはできませんが、ツリーを適合させることができる速度と容易さ（データシェニガンに対する堅牢性は言うまでもありません）はかなり重要な影響を及ぼしたと思いますモデリング手法の彼の選択。そうは言っても、私は間違っているかもしれませんが、他のモデリング手法が事実上実装できなかった厳密な理論的理由は想像できません。繰り返しますが、私はリッジウェイの心を知っていると主張することはできませんが、私は一般化された部分を想像しますgbmの名前は、多数の潜在的なアプリケーションを指します。このパッケージを使用して、回帰（線形、ポアソン、および変位値）、二項（多数の異なる損失関数を使用）、多項分類、および生存分析（少なくともcoxph分布が何らかの指標である場合はハザード関数の計算）を実行できます。

Elithの論文は漠然とおなじみのようです（去年の夏、GBMに適した視覚化方法を調べていたときに出くわしたと思います）。メモリが適切に機能する場合は、gbmライブラリの拡張機能を特徴としており、回帰の自動モデル調整（ガウス分布など）に焦点を当てています（二項ではなく）アプリケーションと改善されたプロット生成。GBMがより一般的であるのに対し、RBTの命名法はモデリング手法の性質を明確にするのに役立つと思います。

これがいくつかの問題を解決するのに役立つことを願っています。

— ハブ
ソース