タグ付けされた質問 「decision-trees」

意思決定ツリーは、意思決定のツリー状のグラフまたはモデルと、偶然のイベントの結果、リソースコスト、およびユーティリティを含むそれらの考えられる結果を使用する意思決定支援ツールです。アルゴリズムを表示する1つの方法です。


6
決定木/ランダムフォレストの機能としての文字列
決定木/ランダムフォレストのアプリケーションでいくつかの問題を行っています。機能として数字と文字列(国名など)を持つ問題を解決しようとしています。ライブラリであるscikit-learnは、パラメータとして数字のみを使用しますが、文字列を注入するだけでなく、かなりの知識が必要です。 このようなシナリオをどのように処理しますか? Pythonのハッシュなどのメカニズムにより、文字列を数値に変換できます。しかし、決定木問題で文字列を処理する方法に関するベストプラクティスを知りたいと思います。

3
なぜXGBoostとランダムフォレストが必要なのですか?
いくつかの概念については明確ではありませんでした。 XGBoostは、弱い学習者を強い学習者に変換します。これを行う利点は何ですか?多くの弱学習器を組み合わせるだけではなく単一のツリーを使用していますか? ランダムフォレストはツリーを作成するために、木から様々なサンプルを使用しています。だけではなく、単数形の木を使用して、この方法の利点は何ですか?

5
決定木アルゴリズムは線形または非線形ですか
最近、私の友人に、ディシジョンツリーアルゴリズムが線形アルゴリズムであるか非線形アルゴリズムであるかがインタビューで尋ねられました。この質問への回答を探しましたが、満足のいく説明が見つかりませんでした。誰でもこの質問の解決策に答えて説明できますか?また、非線形機械学習アルゴリズムの他の例は何ですか?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
xgboostの確率を予測する方法は?
以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。 質問 代わりに確率を予測する方法は?

4
決定木またはロジスティック回帰?
私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?

1
勾配ブーストされたツリーはどの関数にも適合しますか?
ニューラルネットワークの場合、ニューラルネットワークはR nのコンパクトなサブセット上の任意の連続関数を近似できると述べる普遍近似定理があります。RnRnR^n 勾配ブーストされたツリーにも同様の結果がありますか?ブランチを追加し続けることができるので合理的と思われますが、このテーマに関する正式な議論は見つかりません。 編集:私の質問は 回帰木は継続的に予測できますか?、おそらくまったく同じことを求めていない。しかし、関連する議論についてはその質問を参照してください。

1
決定木の連続変数の分割点はどのように選択されますか?
デシジョンツリーに関連する2つの質問があります。 連続属性がある場合、分割値をどのように選択しますか? 例:Age =(20,29,50,40 ....) 値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか?R v f v f > vfffRRRvvvfffvvvf> vf>vf>v

1
XGBRegressorとxgboost.trainの大きな速度差は?
次のコードを使用してモデルをトレーニングする場合: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 約1分で終了します。 Sci-Kit学習メソッドを使用してモデルをトレーニングする場合: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

1
決定木:リーフワイズ(ベストファースト)およびレベルワイズツリートラバース
問題1: ツリーの展開方法に関するLightGBMの説明に混乱しています。 彼らは述べています: ほとんどの決定木学習アルゴリズムは、次の図のように、レベル(深さ)ごとにツリーを成長させます。 質問1:どの「ほとんどの」アルゴリズムがこの方法で実装されていますか?私が知る限り、C4.5とCARTはDFSを使用します。XGBoostはBFSを使用します。決定木にBFSを使用する他のアルゴリズムまたはパッケージはどれですか? 問題2: LightGBMの状態: LightGBMは、リーフ単位で(ベストファースト)ツリーを成長させます。最大のデルタ損失を持つリーフを選択して成長させます。同じリーフを成長させる場合、リーフワイズアルゴリズムはレベルワイズアルゴリズムよりも損失を減らすことができます。 質問2:レベルごとに成長する木は、すべての葉で同じ深さになると言うのは正しいですか? 質問3:質問2が正しくない場合、レベルワイズおよびリーフワイズの成長からのツリーは、トラバーサルの終わりに同じように見えます(剪定などは行われません)。それは正しい表現ですか? 質問4:質問3が正しい場合、「リーフワイズアルゴリズムはレベルワイズアルゴリズムよりも多くの損失を減らすことができますか?」ポストプルーニングアルゴリズムに関係していますか?

4
決定木とKNN
どのケースでデシジョンツリーを使用し、他のケースではKNNを使用した方が良いですか? 特定のケースでそれらの1つを使用する理由 そして、別のケースで他の?(アルゴリズムではなく、その機能を見ることにより) これについての説明や参考文献はありますか?

3
不均衡なクラス—偽陰性を最小限に抑える方法は?
バイナリクラス属性を持つデータセットがあります。クラス+1(癌陽性)のインスタンスは623個、クラス-1(癌陰性)のインスタンスは101,671個あります。 私はさまざまなアルゴリズム(ナイーブベイズ、ランダムフォレスト、AODE、C4.5)を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く(99.5%)、偽陰性率が最も低くなりますが、陽性クラスの79%は見落とします(つまり、悪性腫瘍の79%を検出できません)。 この状況を改善するにはどうすればよいですか? ありがとう!

3
回帰木は継続的に予測できますか?
ような滑らかな関数があるとしますf(x 、y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2。トレーニングセットそしてもちろん、私は知りませんが、どこでもを評価できます。F FD ⊊ { ((X 、Y)、f(x 、y))| (x 、y)∈ R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回帰木は関数の滑らかなモデルを見つけることができますか(したがって、入力の小さな変化は出力の小さな変化のみを与えるはずです)? 講義10:回帰ツリーで読んだことから、回帰ツリーは基本的に関数値をビンに入れるように見えます: 従来の回帰木の場合、各セルのモデルは、Yの一定の推定値です。 彼らが「クラシック」と書いているとき、細胞がより興味深い何かをするバリアントがあると思いますか?

2
Catboostのカテゴリ機能の処理オプション(CTR設定)?
連続的なターゲット変数(つまり、回帰)を予測する多数のカテゴリ特徴(> 80%)を持つデータセットを使用しています。カテゴリ機能を処理する方法についてかなり読んでいます。そして、私が過去に使用したワンホットエンコーディングは、特に多くのレベルを持つ多くのカテゴリ機能に関しては、非常に悪い考えであることを学びました(これらの投稿とこれを読んでください)。 カテゴリベースの機能のターゲットベースのエンコード(スムージング)などの方法に出くわしましたが、多くの場合、Kaggleのこの投稿/カーネルの各機能のターゲット値の平均に基づいています。それでも、CandBoostがYandexグループによって昨年リリースされた意思決定ツリーに対するオープンソースのグラディエントブースティングを見つけるまで、より具体的な方法を見つけるのに苦労しています。これらは、カテゴリ機能に対して追加の統計カウントオプションを提供しているようで、単純なワンホットエンコーディングやスムージングよりもはるかに効率的です。 問題は、ドキュメントがCTR設定の設定方法に役立たないことです。別の方法を試しましたが、うまくいきません。このドキュメントでは、CTR設定はsimple_ctrであり、(CTR設定セクション)として指定されています。 ['CtrType[:TargetBorderCount=BorderCount][:TargetBorderType=BorderType][:CtrBorderCount=Count][:CtrBorderType=Type][:Prior=num_1/denum_1]..[:Prior=num_N/denum_N]', 'CtrType[:TargetBorderCount=BorderCount][:TargetBorderType=BorderType][:CtrBorderCount=Count][:CtrBorderType=Type][:Prior=num_1/denum_1]..[:Prior=num_N/denum_N]', ...] これは非常に単純な例です。データは次のようになります。 import pandas as pd import catboost data = [{'profit': '342','country': 'holland','account': 'Jones LLC', 'saving': 150, 'debt': -60, 'age': 28}, {'profit': '875','country': 'germany','account': 'Alpha Co', 'saving': 200, 'debt': -10, 'age': 42}, {'profit': '127','country': 'italy','account': 'Blue Inc', 'saving': 50, 'debt': -300, 'age': 38 }] …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.