タグ付けされた質問 「cart」

「分類と回帰ツリー」。CARTは人気のある機械学習手法であり、ランダムフォレストや勾配ブースティングマシンの一般的な実装などの手法の基礎を形成します。

9
ランダムフォレストから知識を取得する
ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか? 最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。 私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います(カイ二乗独立のようなもの)。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。 追加された2012.01.2012 動機 この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います(または少なくとも希望します)。

2
勾配ブースティングツリーとランダムフォレスト
Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする(完全に成長させる)か、もっと単純にするべきか疑問に思っています。選択の説明はありますか? ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか?

1
条件付き推論ツリーと従来の決定ツリー
誰でも、従来の決定木アルゴリズム(R など)と比較した条件付き推論木(Rのパッケージctreeからparty)の主な違いを説明できますrpartか? CIツリーの違いは何ですか? 強みと弱み? 更新:私はホーソーンらによるコメントでチーが言及している論文を見てきました。私はそれを完全に追うことができませんでした-順列を使用して変数が選択される方法を説明できますか(例:影響関数とは)? ありがとう!

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
ランダムフォレストのチューニングに関する実用的な質問
私の質問はランダムフォレストについてです。この美しい分類器の概念は私には明らかですが、実際の使用上の疑問はまだたくさんあります。残念ながら、RFの実用的なガイドを見つけることができませんでした(Geoffrey Hintonによる「制限付きボルツマンマシンのトレーニングのための実践ガイド」のようなものを探していましたが、ランダムフォレストについてです! 実際にRFを調整するにはどうすればよいですか? ツリーの数が多いほど良いというのは本当ですか?ツリーの数の増加と、特定のデータセットの推定方法に合理的な制限(もちろん、比較能力を除く)はありますか? 木の深さはどうですか?合理的なものを選択するには?1つのフォレスト内で異なる長さの木を実験することに意味はありますか?それに対するガイダンスは何ですか? RFのトレーニング時に検討する価値のある他のパラメーターはありますか?個々のツリーを構築するためのアルゴリズムはどうでしょうか? RFがオーバーフィッティングに耐性があると彼らが言うとき、それはどのように真実ですか? 検索中に見逃したかもしれない答えやガイドや記事へのリンクに感謝します。

3
randomForest :: getTree()からサンプルツリーを実際にプロットする方法は?[閉まっている]
いくつかのサンプルツリーを実際にプロットする方法について、ライブラリまたはコードの提案がありました。 getTree(rfobj, k, labelVar=TRUE) はいエンコードされたファクターがどれだけうまく機能しているかなど) 適切な答えのない事前の質問: ランダムフォレストをより解釈可能にする方法は? また、ランダムフォレストから知識を得ます 実際にサンプルツリーをプロットしたいです。だから、すでにそれについて私と議論しないでください。varImpPlot(Variable Importance Plot)やpartialPlotor MDSPlot、またはこれらの他のプロットについては聞いていませんが、それらは既にありますが、サンプルツリーを見ることの代わりではありません。はい、視覚的に出力を調べることができますgetTree(...,labelVar=TRUE)。 (plot.rf.tree()貢献は非常に歓迎されると思います。)

3
逸脱とは何ですか?(特にCART / rpartで)
「逸脱」とは何ですか、どのように計算され、統計のさまざまな分野でどのように使用されますか? 特に、CARTでの使用(およびRのrpartでの実装)に個人的に興味があります。 wikiの記事にはやや欠けているようで、あなたの洞察が最も歓迎されるので、私はこれを求めています。
45 r  cart  rpart  deviance 

4
不均衡なデータに対する決定ツリーのトレーニング
私はデータマイニングが初めてであり、非常に不均衡なデータセットに対してデシジョンツリーをトレーニングしようとしています。ただし、予測精度が低いという問題があります。 データはコースを学習している学生で構成され、クラス変数はコースのステータスであり、2つの値(撤回済みまたは現在)があります。 年齢 人種 性別 コース ... コース状況 データセットには、撤回されたよりも多くの現在のインスタンスがあります。撤回されたインスタンスは、合計インスタンスの2%のみを占めます。 人が将来撤退する確率を予測できるモデルを構築したいと考えています。ただし、トレーニングデータに対してモデルをテストする場合、モデルの精度はひどいです。 データが1つまたは2つのクラスに支配されているディシジョンツリーでも同様の問題が発生しました。 この問題を解決し、より正確な分類器を構築するには、どのアプローチを使用できますか?

3
決定木が計算コストが高くないのはなぜですか?
でRにおけるアプリケーションとの統計的学習への入門、著者は、フィッティングことを書き決定木は非常に高速ですが、これは私には意味がありません。アルゴリズムは、最適な分割を見つけるために、すべての機能を通過し、可能な限りあらゆる方法で分割する必要があります。観測値を持つ数値フィーチャの場合、これにより各フィーチャにn個のパーティションが作成される可能性があります。nnnnnn バイナリ分割の仕組みを誤解していますか?または、このアルゴリズムに時間がかからない理由はありますか?
38 cart 

6
なぜ100%の精度の決定木が得られるのですか?
意思決定ツリーの精度は100%です。何が間違っていますか? これは私のコードです: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import DecisionTreeClassifier tree = …

4
決定木の弱点は何ですか?
決定木は非常に理解しやすい機械学習方法のようです。一度作成されると、人間が簡単に検査できるため、アプリケーションによっては大きな利点があります。 デシジョンツリーの実際の弱点は何ですか?

1
ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい

3
ランダムフォレストはどのように外れ値に敏感ではないのですか?
これを含むいくつかの情報源で、ランダムフォレストは外れ値の影響を受けないことを読みました(たとえば、ロジスティック回帰や他のMLメソッドのように)。 ただし、2つの直観がそれ以外のことを教えてくれます。 決定木が作成されるたびに、すべてのポイントを分類する必要があります。これは、外れ値でも分類されるため、ブースティング中に選択された決定木に影響を与えることを意味します。 ブートストラップは、RandomForestがサブサンプリングを行う方法の一部です。ブートストラップは外れ値の影響を受けやすくなっています。 異論のある情報源で、外れ値に対する感度に関する私の直感を調整する方法はありますか?

1
GBMパラメータの有用なガイドラインは何ですか?
GBMを使用してパラメータ(相互作用の深さ、ミンチャイルド、サンプルレートなど)をテストするための有用なガイドラインは何ですか? 人口が200,000の70-100の機能があり、相互作用の深さ3と4をテストするつもりだとしましょう。明らかに、パラメーターのどの組み合わせが最適なサンプル外であるかを確認するためにテストを行う必要があります。このテスト設計にアプローチする方法に関する提案はありますか?

4
CARTを使用する際の「変数重要度」の測定/ランク付け方法 (具体的にはRの{rpart}を使用)
rpart(R内)を使用してCARTモデル(特に分類ツリー)を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。 したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は 何ですか?Rを使用してこれをどのように計算できますか(たとえば、rpartパッケージを使用する場合) たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、(ある意味では)x1がx2よりも重要であることを明確にするように構造化されています(x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.