タグ付けされた質問 「cart」

「分類と回帰ツリー」。CARTは人気のある機械学習手法であり、ランダムフォレストや勾配ブースティングマシンの一般的な実装などの手法の基礎を形成します。

2
決定木を発明したのは誰ですか?
意思決定ツリーのデータ構造とアルゴリズムを発明したのは誰かを追跡しようとしています。 決定木の学習に関するウィキペディアのエントリには、「ID3とCARTはほぼ同時に(1970年から1980年までに)独立して発明された」という主張があります。ID3は後で提示されました。 Quinlan、JR1986。決定木の誘導。マッハ。学ぶ。1、1(1986年3月)、81-106 そのため、私はその主張が真実であるかどうかわかりません。 Googleの書籍を使用して、1959年の統計統計決定シリーズと1958年のワーキングペーパーのコレクションへの参照を見つけました。コンテキストは明確ではなく、アルゴリズムを提示していないようです。ただし、データ構造を定義せず、よく知られているように扱います。 Google Scholarを使用して1853年にさかのぼる引用を見つけましたが、これらは解析エラーであり、その日からの実際の引用ではありませんでした。
24 cart  history 

2
CHAID vs CRT(またはCART)
約20の予測変数(いくつかのカテゴリを含むカテゴリ)を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID(カイ二乗自動相互作用検出)およびCRT / CART(分類および回帰ツリー)は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか?あるメソッドを他のメソッドよりも使用することの意味は何ですか?
23 spss  cart 

5
予測ツリー(CVなど)のパフォーマンスが向上した分類ツリーの代替手段
私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。 私が扱っているデータには、説明変数と説明変数の両方の要因があります。 このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか(明らかにRで)?


2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログb⁡p(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

4
決定木はほとんど常に二分木ですか?
私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。 子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
教師なしクラスタリングのための決定木のようなアルゴリズムはありますか?
A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。 私が意味するアプローチは次のようなものです: アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。 上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。 私の質問は次のとおりです。 そのようなアルゴリズムはすでに存在しますか?そのようなアルゴリズムの正しい名前は何ですか この種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか?

2
ランダムフォレストがランダムフォレストを生成する方法
私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は(ランダム)ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか?(つまり、ツリー生成に使用される分布は何ですか?) 前もって感謝します !

3
意思決定の切り株は線形モデルですか?
決定切り株は、分割が1つしかない決定木です。また、区分関数として書くこともできます。 たとえば、がベクトルであり、がxの最初のコンポーネントであると仮定すると、回帰設定では、いくつかの決定スタンプがx 1 xxxxx1x1x_1バツxx f(x )= { 35バツ1≤ 2バツ1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} しかし、それは線形モデルですか?ここでf(x)= \ beta ^ T xと書くことができますf(x )= βTバツf(x)=βTxf(x)=\beta^T xか?この質問は奇妙に聞こえるかもしれません。答えとコメントで述べたように、区分的関数をプロットする場合、それは線ではないからです。この質問をする理由については、次のセクションをご覧ください。 編集: この質問をする理由は、ロジスティック回帰が(一般化された)線形モデルであり、決定境界が線であり、これも決定の切り株であるためです。この質問もあることに注意してください:ロジスティック回帰はなぜ線形モデルなのですか?。一方、意思決定の切り株が線形モデルであることは事実ではないようです。 私がこれを尋ねたもう一つの理由は、この質問のためです: ブースティングでは、ベース学習者が線形モデルである場合、最終モデルは単なる線形モデルですか? ここで、ベースモデルとして線形モデルを使用すると、線形回帰以外の何も得られません。しかし、ベースラーナーを決定の切り株として選択すると、非常に興味深いモデルが得られます。 これは、2つの特徴と1つの連続的な応答を使用した回帰での決定切り株ブースティングの1つの例です。

3
回帰のランダムフォレストは「真の」回帰ですか?
回帰にはランダムフォレストが使用されます。しかし、私が理解していることから、彼らは各葉に平均目標値を割り当てています。各ツリーのリーフは限られているため、回帰モデルからターゲットが達成できる特定の値のみがあります。したがって、それは単なる「離散」回帰(ステップ関数のような)ではなく、「連続」な線形回帰ではないのでしょうか? これを正しく理解していますか?はいの場合、ランダムフォレストは回帰においてどのような利点を提供しますか?

2
ディープラーニングとデシジョンツリーおよびブースティング手法
(経験的または理論的に)比較して議論する論文またはテキストを探しています。 Random ForestsやAdaBoost、およびGentleBoost などのブースティングおよび決定木アルゴリズムが決定木に適用されます。 と 以下のような深い学習法制限付きボルツマンマシン、階層一時記憶、畳み込みニューラルネットワークなど、 より具体的には、MLメソッドのこれら2つのブロックを速度、精度、または収束の観点から議論または比較するテキストを知っている人はいますか?また、2番目のブロックのモデルまたはメソッドの違い(長所と短所など)を説明または要約するテキストを探しています。 このような比較に直接対処するポインタまたは回答をいただければ幸いです。

1
「機能空間」とは何ですか?
「機能空間」の定義は何ですか? たとえば、SVMについて読むとき、「機能空間へのマッピング」について読みます。CARTについて読むとき、「機能空間へのパーティション分割」について読みます。 何が起こっているのか、特にCARTについては理解していますが、見落としている定義があると思います。 「機能空間」の一般的な定義はありますか? SVMカーネルお​​よび/またはCARTについてより多くの洞察を与える定義がありますか?

1
デシジョンツリーのVCディメンションとは何ですか?
2つの次元にk分割された決定木のVC次元とは何ですか?モデルがCARTであり、許可される分割は軸に平行であるとしましょう。 したがって、1回の分割で三角形の3つのポイントを注文し、ポイントのラベル付けで完全な予測を得ることができます(つまり:粉砕ポイント) しかし、2分割、または一般的なkはどうですか?

1
ツリーのブーストとバギング(XGBoost、LightGBM)
ツリーのバギング や ブースティングのアイデアに関する多くのブログ記事、YouTubeビデオなどがあります。私の一般的な理解では、それぞれの擬似コードは次のとおりです。 バギング: サンプルのx%および特徴のy%のN個のランダムサンプルを取得します Nのそれぞれにモデル(決定木など)を適合させる 各Nで予測 予測を平均して最終予測を取得する ブースティング: モデル(意思決定ツリーなど)をデータに適合させる 残差を取得する モデルを残差に適合させる N回のブースティングラウンドで2に進む 最終予測は、順次予測子の加重合計です。 上記の私の理解を明確にするために説明しますが、私の意図する質問は次のとおりです。 XGBoostとLightGBMの両方には、バギングを許可するパラメーターがあります。このアプリケーションは、バギングまたはブースティング(すべてのブログ投稿で述べられていること)ではなく、バギングとブースティングです。バギングとブースティングの組み合わせが行われる場所とタイミングの擬似コードは何ですか? 「Bagged Boosted Trees」になると思っていましたが、「Boosted Bagged Trees」のようです。違いは大きいようです。 バギングブーストツリー: サンプルのx%および特徴のy%のN個のランダムサンプルを取得します N個のサンプルのそれぞれにブーストされたツリーをフィット 各Nで予測 予測を平均して最終予測を取得する これが最善の方法のようです。結局、ブーストのリスクは過剰適合であり、バギングの主な利点は過剰適合を減らすことです。ブーストされたモデルの束をまとめることは素晴らしいアイデアのようです。 ただし、たとえば、scikit-learn gradient_boosting.py(サンプルのバギングを行いますが、ランダムな特徴選択は行いません)を調べ、LightGBMとXGBoostに関する投稿全体のいくつかの小さなナゲットを組み合わせると、XGBoostとLightGBMは次のように機能します。 ブーストバギングツリー: 決定木をデータに適合させる Nブーストラウンドのiの場合: 残差を取得する bag_frequency == 0の場合(つまり、5ラウンドごとにバッグする): サンプルのx%と特徴のy%の単一のランダムサンプルを取得します。今後このランダムなサンプルを使用してください 木を残差に適合させる 最終予測は、順次予測子の加重合計です。 ここで私の理解を修正し、詳細を入力してください。Boosted Bagged Tree(bag_frequencyごとにランダムツリーが1つだけ)は、Bagged Boosted Treeほど強力ではないようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.