タグ付けされた質問 「gbm」

5
GBM対XGBOOST?主な違いは?
GBMとXGBOOSTの主な違いを理解しようとしています。私はそれをグーグルで検索しようとしましたが、2つのアルゴリズムの違いとxgboostがGBMよりもほとんど常に優れている理由を説明する良い答えを見つけることができませんでした。XGBOOSTの高速化の理由は何ですか?

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
XGBoostはそれ自体で多重共線性を処理しますか?
現在、21個の機能(約150個の機能のリストから選択)を含むデータセットでXGBoostを使用しており、ワンホットコーディングして〜98個の機能を取得しています。これらの98個の機能のいくつかは、いくらか冗長です。たとえば、変数(機能)はBとしても表示されます。AAAおよびCBABA\frac{B}{A}。CACA\frac{C}{A} 私の質問は: Boosted Decision Treesは多重共線性をどのように(If?)処理しますか? 多重共線性の存在が処理されない場合、予測にどのように影響しますか? 私が理解していることから、モデルは複数のツリーを学習しており、最終的な予測は個々の予測の「加重和」のようなものに基づいています。したがって、これが正しければ、Boosted Decision Trees は変数間の相互依存関係を処理できるはずです。 また、関連するメモ-XGBoostの変数重要度オブジェクトはどのように機能しますか?

2
xgBoostのペアワイズランキングモデルにどのように適合しますか?
私の知る限り、モデルをランク付けするように学習をトレーニングするには、データセットに次の3つを含める必要があります。 ラベルまたは関連性 グループまたはクエリID 特徴ベクトル たとえば、Microsoft Learning to Rankデータセットはこの形式(ラベル、グループID、機能)を使用します。 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... GBMを使用してペアワイズランキングを行うxgBoostを試しています。これらには、C ++プログラムを使用して上記のようなMicrosoftデータセットで学習するランキングタスクの例があります。 しかし、私は彼らのPythonラッパーを使用しており、グループID(qid上記)を入力できる場所が見つからないようです。機能と関連性スコアのみを使用してモデルをトレーニングできますが、何かが足りないように感じます。 これがサンプルスクリプトです。 gbm = XGBRegressor(objective="rank:pairwise") X = np.random.normal(0, 1, 1000).reshape(100, 10) y = np.random.randint(0, 5, 100) gbm.fit(X, y) ### --- no group id needed??? print gbm.predict(X) # should be in …
14 search  ranking  xgboost  gbm 

3
xgboostのおおよその分割点の提案を理解するのに助けが必要
バックグラウンド: でxgboost反復は、ツリー収まるようにしようとすべての上に以下の目的最小限の例:f t ntttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] ここで、は、以前の最良の推定(反復)に対する1次および2次導関数です。、Y、T - 1gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) そしては損失関数です。lll 質問(最終的に): を構築し、特定のスプリットの特定の特徴を検討する場合、次のヒューリスティックを使用して一部のスプリット候補のみを評価します。すべての例をでソートし、ソートされたリストを渡して、2次導関数を合計します。合計がより大きく変化する場合にのみ、分割候補を考慮します。何故ですか??? k x k h i ϵftftf_tkkkxkxkx_khihih_iϵϵ\epsilon 彼らが与える説明は私を逃れています: 彼らは、以前の方程式を次のように書き換えることができると主張している。 ∑i=1n12hi[ft(xi)−gi/hi]2+constant∑i=1n12hi[ft(xi)−gi/hi]2+constant\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant そして、代数をたどることができません-なぜそれが等しいのか示していただけますか? そして、彼らは「これはラベルと重みによる正確に重み付けされた2乗損失である」と主張します-私は同意する声明ですが、それが彼らが使用している分割候補アルゴリズムとどのように関連するのか理解していません...h igi/higi/higi/hihihih_i これがこのフォーラムには長すぎる場合は、ありがとうございます。
12 xgboost  gbm 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.