統計とビッグデータ cart

2

意思決定ツリーのデータ構造とアルゴリズムを発明したのは誰かを追跡しようとしています。決定木の学習に関するウィキペディアのエントリには、「ID3とCARTはほぼ同時に（1970年から1980年までに）独立して発明された」という主張があります。ID3は後で提示されました。 Quinlan、JR1986。決定木の誘導。マッハ。学ぶ。1、1（1986年3月）、81-106 そのため、私はその主張が真実であるかどうかわかりません。 Googleの書籍を使用して、1959年の統計統計決定シリーズと1958年のワーキングペーパーのコレクションへの参照を見つけました。コンテキストは明確ではなく、アルゴリズムを提示していないようです。ただし、データ構造を定義せず、よく知られているように扱います。 Google Scholarを使用して1853年にさかのぼる引用を見つけましたが、これらは解析エラーであり、その日からの実際の引用ではありませんでした。

24 cart history

2

CHAID vs CRT（またはCART）

約20の予測変数（いくつかのカテゴリを含むカテゴリ）を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID（カイ二乗自動相互作用検出）およびCRT / CART（分類および回帰ツリー）は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか？あるメソッドを他のメソッドよりも使用することの意味は何ですか？

23 spss cart

5

予測ツリー（CVなど）のパフォーマンスが向上した分類ツリーの代替手段

私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。私が扱っているデータには、説明変数と説明変数の両方の要因があります。このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか（明らかにRで）？

23 r machine-learning classification cart

1

決定木学習アルゴリズムは欠損値をどのように処理しますか（内部）

欠損値を処理するために決定木学習アルゴリズムが使用する方法は何ですか。 missingと呼ばれる値を使用して、単にスロットをいっぱいにしますか？ありがとう。

21 missing-data cart

2

GINIスコアと対数尤度比の関係は何ですか

私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論（シャノン）に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。質問：分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか？ GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか（シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です）？参照：加重Gini基準はどのように定義されていますか？分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf （追加） http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y）or,=H(X,Y）−H(Y）H(バツ|Y）=Σyp（バツ、y）ログb⁡p（バツ）p（バツ、y）または、H（バツ|Y）=H（バツ、Y）−H（Y）\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

21 cart likelihood-ratio information-theory kullback-leibler gini

4

決定木はほとんど常に二分木ですか？

私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか？ほとんどの標準アルゴリズム（C4.5、CARTなど）はバイナリツリーのみをサポートしていますか？私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

21 machine-learning data-mining cart

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

教師なしクラスタリングのための決定木のようなアルゴリズムはありますか？

A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。私が意味するアプローチは次のようなものです：アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。私の質問は次のとおりです。そのようなアルゴリズムはすでに存在しますか？そのようなアルゴリズムの正しい名前は何ですかこの種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか？

20 r machine-learning clustering cart

2

ランダムフォレストがランダムフォレストを生成する方法

私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は（ランダム）ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか？（つまり、ツリー生成に使用される分布は何ですか？）前もって感謝します！

20 machine-learning r algorithms cart random-forest

3

意思決定の切り株は線形モデルですか？

決定切り株は、分割が1つしかない決定木です。また、区分関数として書くこともできます。たとえば、がベクトルであり、がxの最初のコンポーネントであると仮定すると、回帰設定では、いくつかの決定スタンプがx 1 xxxxx1x1x_1バツxx f（x ）= { 35バツ1≤ 2バツ1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} しかし、それは線形モデルですか？ここでf（x）= \ beta ^ T xと書くことができますf（x ）= βTバツf(x)=βTxf(x)=\beta^T xか？この質問は奇妙に聞こえるかもしれません。答えとコメントで述べたように、区分的関数をプロットする場合、それは線ではないからです。この質問をする理由については、次のセクションをご覧ください。編集：この質問をする理由は、ロジスティック回帰が（一般化された）線形モデルであり、決定境界が線であり、これも決定の切り株であるためです。この質問もあることに注意してください：ロジスティック回帰はなぜ線形モデルなのですか？。一方、意思決定の切り株が線形モデルであることは事実ではないようです。私がこれを尋ねたもう一つの理由は、この質問のためです：ブースティングでは、ベース学習者が線形モデルである場合、最終モデルは単なる線形モデルですか？ここで、ベースモデルとして線形モデルを使用すると、線形回帰以外の何も得られません。しかし、ベースラーナーを決定の切り株として選択すると、非常に興味深いモデルが得られます。これは、2つの特徴と1つの連続的な応答を使用した回帰での決定切り株ブースティングの1つの例です。

19 machine-learning cart linear boosting

3

回帰のランダムフォレストは「真の」回帰ですか？

回帰にはランダムフォレストが使用されます。しかし、私が理解していることから、彼らは各葉に平均目標値を割り当てています。各ツリーのリーフは限られているため、回帰モデルからターゲットが達成できる特定の値のみがあります。したがって、それは単なる「離散」回帰（ステップ関数のような）ではなく、「連続」な線形回帰ではないのでしょうか？これを正しく理解していますか？はいの場合、ランダムフォレストは回帰においてどのような利点を提供しますか？

18 regression random-forest cart

2

ディープラーニングとデシジョンツリーおよびブースティング手法

（経験的または理論的に）比較して議論する論文またはテキストを探しています。 Random ForestsやAdaBoost、およびGentleBoost などのブースティングおよび決定木アルゴリズムが決定木に適用されます。と以下のような深い学習法制限付きボルツマンマシン、階層一時記憶、畳み込みニューラルネットワークなど、より具体的には、MLメソッドのこれら2つのブロックを速度、精度、または収束の観点から議論または比較するテキストを知っている人はいますか？また、2番目のブロックのモデルまたはメソッドの違い（長所と短所など）を説明または要約するテキストを探しています。このような比較に直接対処するポインタまたは回答をいただければ幸いです。

18 machine-learning deep-learning cart rbm adaboost

1

「機能空間」とは何ですか？

「機能空間」の定義は何ですか？たとえば、SVMについて読むとき、「機能空間へのマッピング」について読みます。CARTについて読むとき、「機能空間へのパーティション分割」について読みます。何が起こっているのか、特にCARTについては理解していますが、見落としている定義があると思います。「機能空間」の一般的な定義はありますか？ SVMカーネルおよび/またはCARTについてより多くの洞察を与える定義がありますか？

18 machine-learning svm feature-selection cart feature-construction

1

デシジョンツリーのVCディメンションとは何ですか？

2つの次元にk分割された決定木のVC次元とは何ですか？モデルがCARTであり、許可される分割は軸に平行であるとしましょう。したがって、1回の分割で三角形の3つのポイントを注文し、ポイントのラベル付けで完全な予測を得ることができます（つまり：粉砕ポイント）しかし、2分割、または一般的なkはどうですか？

17 cart vc-dimension

1

ツリーのブーストとバギング（XGBoost、LightGBM）

ツリーのバギングやブースティングのアイデアに関する多くのブログ記事、YouTubeビデオなどがあります。私の一般的な理解では、それぞれの擬似コードは次のとおりです。バギング：サンプルのx％および特徴のy％のN個のランダムサンプルを取得します Nのそれぞれにモデル（決定木など）を適合させる各Nで予測予測を平均して最終予測を取得するブースティング：モデル（意思決定ツリーなど）をデータに適合させる残差を取得するモデルを残差に適合させる N回のブースティングラウンドで2に進む最終予測は、順次予測子の加重合計です。上記の私の理解を明確にするために説明しますが、私の意図する質問は次のとおりです。 XGBoostとLightGBMの両方には、バギングを許可するパラメーターがあります。このアプリケーションは、バギングまたはブースティング（すべてのブログ投稿で述べられていること）ではなく、バギングとブースティングです。バギングとブースティングの組み合わせが行われる場所とタイミングの擬似コードは何ですか？「Bagged Boosted Trees」になると思っていましたが、「Boosted Bagged Trees」のようです。違いは大きいようです。バギングブーストツリー：サンプルのx％および特徴のy％のN個のランダムサンプルを取得します N個のサンプルのそれぞれにブーストされたツリーをフィット各Nで予測予測を平均して最終予測を取得するこれが最善の方法のようです。結局、ブーストのリスクは過剰適合であり、バギングの主な利点は過剰適合を減らすことです。ブーストされたモデルの束をまとめることは素晴らしいアイデアのようです。ただし、たとえば、scikit-learn gradient_boosting.py（サンプルのバギングを行いますが、ランダムな特徴選択は行いません）を調べ、LightGBMとXGBoostに関する投稿全体のいくつかの小さなナゲットを組み合わせると、XGBoostとLightGBMは次のように機能します。ブーストバギングツリー：決定木をデータに適合させる Nブーストラウンドのiの場合：残差を取得する bag_frequency == 0の場合（つまり、5ラウンドごとにバッグする）：サンプルのx％と特徴のy％の単一のランダムサンプルを取得します。今後このランダムなサンプルを使用してください木を残差に適合させる最終予測は、順次予測子の加重合計です。ここで私の理解を修正し、詳細を入力してください。Boosted Bagged Tree（bag_frequencyごとにランダムツリーが1つだけ）は、Bagged Boosted Treeほど強力ではないようです。

17 cart boosting xgboost bagging

タグ付けされた質問 「cart」

タグ付けされた質問「cart」