統計とビッグデータ cart

1

ディシジョンツリーの変数（機能）スケーリングと変数（機能）の正規化（調整）は、どの実装で必要ですか？

多くの機械学習アルゴリズムでは、特徴スケーリング（別名変数スケーリング、正規化）が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問＃41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか？ディシジョンツリーに関して特に2つの質問があります。機能のスケーリングを必要とする決定木の実装はありますか？私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。次の変数を検討してください：（1）単位、（2）時間、（3）時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数（3）は（1）と（2）に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能（3）を使用しますか？

10 machine-learning feature-selection cart

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

勾配木ブースティングにおける木サイズ

フリードマンによって提案された勾配木ブースティングはJ、基本学習器として末端ノード（=葉）を持つ決定木を使用します。正確にJノードを持つツリーを成長させる方法はいくつかあります。たとえば、深さ優先の方法または幅優先の方法でツリーを成長させることができます... J勾配木ブースティングのために正確に終端ノードを持つ木を成長させる方法は確立されていますか？私はRのgbmパッケージのツリー成長手順を調べましたが、それは深さ優先の方法でツリーを拡張し、エラーの改善に基づくヒューリスティックを使用して、左または右の子ノードを拡張するかどうかを選択します-それは正しいですか？

10 r cart boosting

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

母集団間の違いを調査する

2つの母集団からのサンプルがあるAとしBます：と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり（たとえば、機能するように駆動しますか？）、一部は機能的です（高さなど）。これらの機能をと呼びましょう。何百ものこれらの機能（例、n = 200）を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。X1…XnX1…XnX_1 \ldots X_n 2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。それらは実際に大きく異なりますか？それらの間の大幅な違いは何ですか？デシジョンツリー（ランダムフォレストなど）や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。この問題に対処するためのいくつかの原則的なアプローチは何ですか？ここに私が持っているいくつかの懸念があります：線形回帰分析のような方法は、（2）に完全に答えない場合がありますよね？たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります（少なくとも1回の近似で）。同じ理由で、ANOVAは（2）についても完全な回答を提供できないと思います。予測アプローチがどのように答えるかは完全には明らかではありません（1）。たとえば、どの分類/予測損失関数を最小化する必要がありますか？そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか？最後に、（1）で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。

9 anova random-forest cart group-differences

2

ツリー推定量は常に偏っていますか？

私はディシジョンツリーで宿題をしているのですが、私が答えなければならない質問の1つは、「ツリーから構築された推定量が偏っているのはなぜですか。現在、過剰適合モデルはすべてのデータポイントに適合しようとするため、バイアスが非常に低くなる傾向があることを知っています。そして、Pythonのスクリプトを使用して、ツリーをいくつかのデータセットに適合させました（単一の機能を備えています。これは正弦波で、いくつかのオフポイントがありました。下の画像）。それで、私は「まあ、データをひどくオーバーフィットした場合、バイアスをゼロにできますか？」と思いました。そして、10000の深さでも、曲線が通過しないいくつかの点がまだあることがわかりました。なぜか探してみましたが、説明があまりわかりませんでした。私はすべてのポイントを完全に通過するいくつかのツリーがあるかもしれないと私は推測しています、そして私が得たものは単に「不運」でした。または、おそらく別のデータセットで公平な結果が得られた可能性があります（おそらく完全な正弦波ですか？）。あるいはそれでも、最初に行われたカットにより、以降のカットですべてのポイントを完全に分離することが不可能になったのかもしれません。したがって、このデータセットを考慮すると（他の人とは異なる可能性があるため）、私の質問は、バイアスがゼロになるポイントにツリーをオーバーフィットすることは可能ですか、それとも本当に小さい？そして、常に少なくともある程度のバイアスがある場合、なぜそれが起こるのですか？ PS関連があるかどうかはわかりませんが、モデルをデータに合わせるためにDecisionTreeRegressorfrom を使用しましたsklearn。

9 cart bias

2

CARTツリーは予測子間の相互作用をキャプチャしますか？

この論文では、CARTでは各ステップで単一の共変量に対してバイナリ分割が実行されるため、すべての分割は直交し、したがって共変量間の相互作用は考慮されないと主張しています。ただし、非常に深刻な参考文献の多くは、逆に、ツリーの階層構造が予測子間の相互作用を自動的にモデル化することを保証していると主張しています（たとえば、この論文、そしてもちろんHastie）。誰が正しいのですか？CARTで生成されたツリーは、入力変数間の相互作用をキャプチャしますか？

9 machine-learning classification data-mining cart

2

生存関数の適合度を評価する方法

私は生存分析の初心者ですが、分類と回帰についてはある程度の知識があります。回帰については、MSEとRの2乗統計があります。しかし、生存モデルAは、ある種のグラフィカルプロット（KM曲線）に加えて、生存モデルBよりも優れていると言えるでしょうか。可能であれば、違いを例で説明してください（Rのrpartパッケージなど）。1つのCARTサバイバルツリーが別のCARTサバイバルツリーよりも優れていることをどのように示すことができますか？どの指標を使用できますか？

9 regression survival goodness-of-fit cart rpart

1

rpart（）で分割数を選択する方法は？

に使用rpart.controlしてminsplit=2、rpart()関数から次の結果を得ました。データの過剰適合を回避するために、スプリット3またはスプリット7を使用する必要がありますか？スプリット7を使用すべきではありませんか？私にお知らせください。ツリー構築で実際に使用される変数： [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 …

9 r cart rpart

4

ツリーベースの回帰は、単純な線形回帰よりもパフォーマンスが悪いのでしょうか？

こんにちは私は回帰技法を勉強しています。私のデータには15の機能と6000万の例（回帰タスク）があります。多くの既知の回帰手法（勾配ブーストツリー、ディシジョンツリー回帰、AdaBoostRegressorなど）を試したところ、線形回帰は優れたパフォーマンスを示しました。これらのアルゴリズムの中でほぼ最高のスコアを獲得しました。これの理由は何ですか？私のデータには非常に多くの例があるので、DTベースの方法はうまく適合できます。正則化された線形回帰の尾根、なげなわのパフォーマンスが悪い誰かが他のパフォーマンスの良い回帰アルゴリズムについて教えてもらえますか？因数分解マシンとサポートベクター回帰は、試すのに適した回帰手法ですか？

9 regression modeling deep-learning model cart

1

xgboostでのツリーの複雑さの定義

xgboostアルゴリズムについて調査し、ドキュメントを調べました。このアプローチでは、ツリーは複雑さの定義を使用して正則化されます。ここで、とはパラメーターで、は末端の葉とは各葉のスコアです。Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j これは複雑さをどのように定義するのでしょうか？ターミナルノードの数であるは、私には自然に思えます。しかし、最終スコアの合計は2乗されますか？TTT 多分オーバーフィッティングを意味します。非常に大きなスコアがあまりにも多くの信頼を与えることを意味しますか？弱い学習者を取得するために選択されていますか？この複雑度関数の選択についての自然な説明は何ですか？

9 cart regularization boosting gradient-descent overfitting

2

RPART（または一般的に決定木）でCP（コスト複雑度）値を計算する方法

私が理解していることから、rpart関数へのcp引数は、minsplitまたはminbucket引数と同じ方法でツリーを事前整理するのに役立ちます。CP値の計算方法がわかりません。例えば df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1) 結果のツリー... mytree n= 6 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 6 3 FALSE (0.5000000 0.5000000) 2) x>=2.5 4 1 FALSE (0.7500000 0.2500000) * 3) x< …

9 r cart rpart

2

ジニ不純物の簡単で明確な説明？

決定木分割のコンテキストでは、ジニ不純物がノードt不純物の測定値である理由を確認することは明らかではありません。これについて簡単な説明はありますか？i(t)=1−∑j=1kp2(j|t)i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t)

9 cart intuition gini

1

バギング技術を使用して、多くの勾配ブースティングツリーを組み合わせることができますか？

勾配ブースティングツリーとランダムフォレストに基づいています。GBDTとRFは、バイアスと分散に取り組むために異なる戦略を使用しています。私の質問は、複数のGBDTをトレーニングし、それらの予測を最終結果として組み合わせるために、データセットを（置き換えて）リサンプリングできるということです。 GBDTを基本学習者として使用してランダムフォレストを構築するのと同じですアイデアは、GBDTがデータセットをオーバーフィットする可能性があることです（完全に成長する決定木と同様、低バイアス、高分散）。バギング手法を使用することでこの問題も軽減でき、パフォーマンスを向上させたいと思います。なにか提案を？

8 random-forest cart boosting bagging gradient

3

葉決定ツリーでの（非）線形回帰

回帰ツリーのリーフで異なる回帰手法を使用することは一般的ですか（たとえば、線形回帰）。私は過去1時間それを探していましたが、私が見つけるのは、木の葉で一定の値を持つ実装だけです。これが一般的である/一般的でない理由はありますか？

8 cart nonlinear-regression

タグ付けされた質問 「cart」

タグ付けされた質問「cart」