タグ付けされた質問 「cart」

「分類と回帰ツリー」。CARTは人気のある機械学習手法であり、ランダムフォレストや勾配ブースティングマシンの一般的な実装などの手法の基礎を形成します。

1
ディシジョンツリーの変数(機能)スケーリングと変数(機能)の正規化(調整)は、どの実装で必要ですか?
多くの機械学習アルゴリズムでは、特徴スケーリング(別名変数スケーリング、正規化)が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問#41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか? ディシジョンツリーに関して特に2つの質問があります。 機能のスケーリングを必要とする決定木の実装はありますか?私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。 次の変数を検討してください:(1)単位、(2)時間、(3)時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数(3)は(1)と(2)に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能(3)を使用しますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
勾配木ブースティングにおける木サイズ
フリードマンによって提案された勾配木ブースティングはJ、基本学習器として末端ノード(=葉)を持つ決定木を使用します。正確にJノードを持つツリーを成長させる方法はいくつかあります。たとえば、深さ優先の方法または幅優先の方法でツリーを成長させることができます... J勾配木ブースティングのために正確に終端ノードを持つ木を成長させる方法は確立されていますか? 私はRのgbmパッケージのツリー成長手順を調べましたが、それは深さ優先の方法でツリーを拡張し、エラーの改善に基づくヒューリスティックを使用して、左または右の子ノードを拡張するかどうかを選択します-それは正しいですか?
10 r  cart  boosting 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
母集団間の違いを調査する
2つの母集団からのサンプルがあるAとしBます:と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり(たとえば、機能するように駆動しますか?)、一部は機能的です(高さなど)。これらの機能をと呼びましょう。何百ものこれらの機能(例、n = 200)を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。X1…XnX1…XnX_1 \ldots X_n 2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。 それらは実際に大きく異なりますか? それらの間の大幅な違いは何ですか? デシジョンツリー(ランダムフォレストなど)や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。 このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。 この問題に対処するためのいくつかの原則的なアプローチは何ですか? ここに私が持っているいくつかの懸念があります: 線形回帰分析のような方法は、(2)に完全に答えない場合がありますよね?たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります(少なくとも1回の近似で)。同じ理由で、ANOVAは(2)についても完全な回答を提供できないと思います。 予測アプローチがどのように答えるかは完全には明らかではありません(1)。たとえば、どの分類/予測損失関数を最小化する必要がありますか?そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか?最後に、(1)で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。

2
ツリー推定量は常に偏っていますか?
私はディシジョンツリーで宿題をしているのですが、私が答えなければならない質問の1つは、「ツリーから構築された推定量が偏っているのはなぜですか。 現在、過剰適合モデルはすべてのデータポイントに適合しようとするため、バイアスが非常に低くなる傾向があることを知っています。そして、Pythonのスクリプトを使用して、ツリーをいくつかのデータセットに適合させました(単一の機能を備えています。これは正弦波で、いくつかのオフポイントがありました。下の画像)。それで、私は「まあ、データをひどくオーバーフィットした場合、バイアスをゼロにできますか?」と思いました。そして、10000の深さでも、曲線が通過しないいくつかの点がまだあることがわかりました。 なぜか探してみましたが、説明があまりわかりませんでした。私はすべてのポイントを完全に通過するいくつかのツリーがあるかもしれないと私は推測しています、そして私が得たものは単に「不運」でした。または、おそらく別のデータセットで公平な結果が得られた可能性があります(おそらく完全な正弦波ですか?)。あるいはそれでも、最初に行われたカットにより、以降のカットですべてのポイントを完全に分離することが不可能になったのかもしれません。 したがって、このデータセットを考慮すると(他の人とは異なる可能性があるため)、私の質問は、バイアスがゼロになるポイントにツリーをオーバーフィットすることは可能ですか、それとも本当に小さい?そして、常に少なくともある程度のバイアスがある場合、なぜそれが起こるのですか? PS関連があるかどうかはわかりませんが、モデルをデータに合わせるためにDecisionTreeRegressorfrom を使用しましたsklearn。
9 cart  bias 

2
CARTツリーは予測子間の相互作用をキャプチャしますか?
この論文では、CARTでは各ステップで単一の共変量に対してバイナリ分割が実行されるため、すべての分割は直交し、したがって共変量間の相互作用は考慮されないと主張しています。 ただし、非常に深刻な参考文献の多くは、逆に、ツリーの階層構造が予測子間の相互作用を自動的にモデル化することを保証していると主張しています(たとえば、この論文、そしてもちろんHastie)。 誰が正しいのですか?CARTで生成されたツリーは、入力変数間の相互作用をキャプチャしますか?

2
生存関数の適合度を評価する方法
私は生存分析の初心者ですが、分類と回帰についてはある程度の知識があります。 回帰については、MSEとRの2乗統計があります。しかし、生存モデルAは、ある種のグラフィカルプロット(KM曲線)に加えて、生存モデルBよりも優れていると言えるでしょうか。 可能であれば、違いを例で説明してください(Rのrpartパッケージなど)。1つのCARTサバイバルツリーが別のCARTサバイバルツリーよりも優れていることをどのように示すことができますか?どの指標を使用できますか?

1
rpart()で分割数を選択する方法は?
に使用rpart.controlしてminsplit=2、rpart()関数から次の結果を得ました。データの過剰適合を回避するために、スプリット3またはスプリット7を使用する必要がありますか?スプリット7を使用すべきではありませんか?私にお知らせください。 ツリー構築で実際に使用される変数: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 …
9 r  cart  rpart 

4
ツリーベースの回帰は、単純な線形回帰よりもパフォーマンスが悪いのでしょうか?
こんにちは私は回帰技法を勉強しています。 私のデータには15の機能と6000万の例(回帰タスク)があります。 多くの既知の回帰手法(勾配ブーストツリー、ディシジョンツリー回帰、AdaBoostRegressorなど)を試したところ、線形回帰は優れたパフォーマンスを示しました。 これらのアルゴリズムの中でほぼ最高のスコアを獲得しました。 これの理由は何ですか?私のデータには非常に多くの例があるので、DTベースの方法はうまく適合できます。 正則化された線形回帰の尾根、なげなわのパフォーマンスが悪い 誰かが他のパフォーマンスの良い回帰アルゴリズムについて教えてもらえますか? 因数分解マシンとサポートベクター回帰は、試すのに適した回帰手法ですか?

1
xgboostでのツリーの複雑さの定義
xgboostアルゴリズムについて調査し、ドキュメントを調べました。 このアプローチでは、ツリーは複雑さの定義を使用して正則化されます。 ここで、とはパラメーターで、は末端の葉とは各葉のスコアです。Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j これは複雑さをどのように定義するのでしょうか?ターミナルノードの数であるは、私には自然に思えます。しかし、最終スコアの合計は2乗されますか?TTT 多分オーバーフィッティングを意味します。非常に大きなスコアがあまりにも多くの信頼を与えることを意味しますか?弱い学習者を取得するために選択されていますか?この複雑度関数の選択についての自然な説明は何ですか?

2
RPART(または一般的に決定木)でCP(コスト複雑度)値を計算する方法
私が理解していることから、rpart関数へのcp引数は、minsplitまたはminbucket引数と同じ方法でツリーを事前整理するのに役立ちます。CP値の計算方法がわかりません。例えば df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1) 結果のツリー... mytree n= 6 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 6 3 FALSE (0.5000000 0.5000000) 2) x>=2.5 4 1 FALSE (0.7500000 0.2500000) * 3) x< …
9 r  cart  rpart 

2
ジニ不純物の簡単で明確な説明?
決定木分割のコンテキストでは、ジニ不純物 がノードt不純物の測定値である理由を確認することは明らかではありません。これについて簡単な説明はありますか?i(t)=1−∑j=1kp2(j|t)i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t)
9 cart  intuition  gini 

1
バギング技術を使用して、多くの勾配ブースティングツリーを組み合わせることができますか?
勾配ブースティングツリーとランダムフォレストに基づいています。GBDTとRFは、バイアスと分散に取り組むために異なる戦略を使用しています。 私の質問は、複数のGBDTをトレーニングし、それらの予測を最終結果として組み合わせるために、データセットを(置き換えて)リサンプリングできるということです。 GBDTを基本学習者として使用してランダムフォレストを構築するのと同じです アイデアは、GBDTがデータセットをオーバーフィットする可能性があることです(完全に成長する決定木と同様、低バイアス、高分散)。バギング手法を使用することでこの問題も軽減でき、パフォーマンスを向上させたいと思います。 なにか提案を?

3
葉決定ツリーでの(非)線形回帰
回帰ツリーのリーフで異なる回帰手法を使用することは一般的ですか(たとえば、線形回帰)。私は過去1時間それを探していましたが、私が見つけるのは、木の葉で一定の値を持つ実装だけです。これが一般的である/一般的でない理由はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.