回答:
分類のためのXGBoostは、決定木の原理とロジスティック回帰を組み合わせたモデルです。
ロジスティック回帰関数は、ロジットスケールで線形である確率を計算します。
ロジスティック回帰とは異なり、「特徴」は決定木の集団の末端ノードとして構築されます。そのため、各行は各サンプルの末端リーフを収集します。行はホットのバイナリベクトルで、は木の数です。(各XGBoostツリーは特定のアルゴリズムに従って生成されますが、ここでは関係ありません。)
は列あり、各ターミナルノードに1列あります。ノードの数はツリー間で異なる可能性があるため(通常、私の経験では)、ターミナルノードの総数を表す式はありません。
ツリーの各葉には、「重み」が関連付けられています。その重みは記録されます。に適合するために、には要素があります。
または、別の言い方をすれば、サンプルの対数オッズは、その末端リーフの重みの合計です。クラス1に属するサンプルの確率は、合計の逆ロジット変換です。
X
マトリックスと固有のベータセットがあることを意味しますか()?つまり、クラス1に属する確率を計算するすべてのサンプル/観測値について、マトリックスとベータベクトルの一意の値を決定する必要がありますか?i
X