統計とビッグデータ xgboost

勾配ブースティング-極端な予測と0.5に近い予測

2つの異なるデータセットで2つの異なるGradient Boosting Classifierモデルをトレーニングするとします。あなたは、one-one-out交差検証を使用し、2つのモデルが出力する予測のヒストグラムをプロットします。ヒストグラムは次のようになります。この：したがって、1つのケースでは、予測（サンプル外/検証セット）はほとんどが極端（0と1に近い）であり、他のケースでは、予測は0.5に近いです。それぞれのグラフから何が推測できますか？どのように違いを説明できますか？データセット/機能/モデルについて何か言えることはありますか？私の直感は、最初のケースでは、機能はデータをよりよく説明するので、モデルはデータによりよく適合します（そして、おそらくデータに適合しますが、必ずしもそうではありませんが、検証/テストセットのパフォーマンスは、機能は実際にデータをよく説明しています）。2番目のケースでは、機能がデータを適切に説明しないため、モデルがデータに近すぎません。ただし、2つのモデルのパフォーマンスは、精度と再現率の点で同じである可能性があります。それは正しいでしょうか？

7 classification cart boosting xgboost

ポアソン偏差（xgboost vs gbm vs回帰）

xgboostツール（極端なグラディエントブースティング）を使用したポアソン回帰の逸脱度式はどれか知りたいのですが。ソースコードによると、評価関数は次のとおりです。 struct EvalPoissonNegLogLik : public EvalEWiseBase { const char *Name() const override { return "poisson-nloglik"; } inline bst_float EvalRow(bst_float y, bst_float py) const { const bst_float eps = 1e-16f; if (py < eps) py = eps; return common::LogGamma(y + 1.0f) + py - std::log(py) * y; } } したがって、逸脱度（R）は次のようになります。 …

7 regression poisson-distribution gbm xgboost

タグ付けされた質問 「xgboost」

タグ付けされた質問「xgboost」