統計とビッグデータ gbm

3

ランダムフォレストまたはグラデーションブースティングを行うときに、機能エンジニアリングは重要ですか？

線形モデル（線形回帰、ロジスティック回帰など）の場合、モデルのパフォーマンスを向上させるために、特徴エンジニアリングは重要なステップです。私の質問は、ランダムフォレストまたは勾配ブースティングを使用しているときに機能エンジニアリングを行うかどうかに関係ありますか？これらのモデルがディープラーニングモデルではないことは間違いありません。しかし、機能エンジニアリング手法のいくつかは実際にはモデルを改善しないようです。たとえば、私は約200の特徴を含むバイナリ分類問題をやっていて、そのうちの20はカテゴリ特徴です。私は次のことをしました：ベンチマーク：ランダムフォレスト分類器を元のデータに直接実行しました。AUCは約0.93、精度、再現率、Fスコアは約0.95です（statifiedKfold検証が適用されており、結果に非常に小さなばらつきがあるため、私は言った）モデルを実行して、カイ2乗検定とANOVA f1検定を実行することにより、特徴の次元を削減しました。結果はほぼ同じです。AUCは約0.93、精度、再現率、Fスコアは約0.95です。次に、すべてのカテゴリ機能をワンホットキーで入力し、モデルを再実行しましたが、結果はほぼ同じです。AUCは約0.93、精度、再現率、Fスコアは約0.95です。次に、切り捨てられたSVDが適用されて機能がさらに削減され、モデルが再トレーニングされますが、結果は変わりません... ついに私は多項式項、残りの特徴のクロス項を追加しました。結果はまだ変わっていません... 何か提案してください？ありがとうございました。

9 machine-learning random-forest feature-construction gbm boosting

2

ブースティング手法では、他のアンサンブル方法と同様に投票を使用しますか？

投票を使用して、すべてのアンサンブルメソッドを一般化できますか？ブースティングメソッドも投票を使用して、弱学習者を最終モデルに入れますか？テクニックについての私の理解：ブースティング：正しく分類されなかったデータポイントをブーストするために、弱学習器を継続的に追加します。アンサンブル手法：複数の学習者を使用して、1人の学習者よりも優れた予測を取得します。これはウィキペディアで説明されています。

8 machine-learning boosting ensemble gbm voting-system

1

ポアソン偏差（xgboost vs gbm vs回帰）

xgboostツール（極端なグラディエントブースティング）を使用したポアソン回帰の逸脱度式はどれか知りたいのですが。ソースコードによると、評価関数は次のとおりです。 struct EvalPoissonNegLogLik : public EvalEWiseBase { const char *Name() const override { return "poisson-nloglik"; } inline bst_float EvalRow(bst_float y, bst_float py) const { const bst_float eps = 1e-16f; if (py < eps) py = eps; return common::LogGamma(y + 1.0f) + py - std::log(py) * y; } } したがって、逸脱度（R）は次のようになります。 …

7 regression poisson-distribution gbm xgboost

タグ付けされた質問 「gbm」

タグ付けされた質問「gbm」