ランダムフォレストでは、各ツリーはデータの一意のブーストラップサンプルで並行して成長します。各ブーストラップサンプルには一意の観測値の約63%が含まれていると予想されるため、観測値の約37%が除外され、ツリーのテストに使用できます。
現在、確率的勾配ブースティングでは、RFと同様の推定値もあるようです。
bag.fractionが0(0.5を推奨)より大きい値に設定されている場合、gbmは予測パフォーマンスの改善のout-of-bag推定を計算します。次の回帰ツリーの選択に使用されていない観測値の逸脱の減少を評価します。
出典:Ridgeway(2007)、セクション3.3(8ページ)。
それがどのように機能するか/有効であるかを理解するのに問題があります。シーケンスにツリーを追加するとします。元のデータセットのランダムなサブサンプルでこのツリーを成長させています。私はそれを育てるために使用されなかった観察でこの単一の木をテストすることができました。同意した。しかし、ブースティングはシーケンシャルなので、これらの省略された観測の予測を提供するために、これまでに構築されたツリーのシーケンス全体を使用しています。そして、先行する木々の多くがこれらの観察をすでに見ている可能性が高いです。したがって、モデルは実際にはRFのような目に見えない観測について各ラウンドでテストされていませんね?
では、なぜこれが「out-of-bag」エラー推定と呼ばれるのでしょうか。私には、観察がすでに見られているので、それはどのバッグからも「出ていない」ように見えますか?