統計とビッグデータ cart

1

決定木を構築するとき、入力変数を徹底的に分割し、統計的検定アプローチまたは不純物関数アプローチによって「最良の」分割を見つけることが知られています。私の質問は、連続変数を入力変数として使用する場合（いくつかの重複する値のみ）、可能な分割の数が非常に大きくなり、「最良の」分割に時間がかかることを見つけることです。データサイエンティストはそれをどのように扱いますか？人々が入力のレベルのクラスタリングを行って可能な分割を制限することになるいくつかの資料を読みました。（例）。しかし、彼らはそれがどのように行われるかを説明していません。単変量変数をクラスター化するために何に基づいていますか？詳細についてのリソースはありますか、または誰でも詳細に説明できますか？ありがとう！

8 cart

1

木の選択バイアス

クーンとジョンソンによる応用予測モデリングでは、著者は次のように書いています。最後に、これらのツリーは選択バイアスの影響を受けます。個別の値の数が多い予測子は、より詳細な予測子よりも優先されます（Loh and Shih、1997; Carolin et al。、2007; Loh、2010）。LohとShih（1997）は次のように述べています。「危険はデータセットが情報変数とノイズ変数の混合で構成され、ノイズ変数は情報変数よりも多くの分割を持っている場合に発生します。次に、ツリーの最上位ノードを分割するためにノイズ変数が選択される可能性が高くなります。剪定を行うと、誤解を招くような構造のツリーが生成されるか、まったくツリーが生成されません。」クーン、マックス; ジョンソン、ケル（2013-05-17）。応用予測モデリング（Kindleロケーション5241-5247）。スプリンガーニューヨーク。キンドル版。彼らはさらに、公平な樹木を構築するためのいくつかの研究について説明します。たとえば、LohのGUIDEモデルです。 CARTフレームワーク内で可能な限り厳密にとどまって、この選択バイアスを最小限に抑えるために私にできることはあるのでしょうか？たとえば、おそらく、カーディナリティの高い予測子をクラスタリング/グループ化することは1つの戦略です。しかし、グループ化をどの程度行うべきでしょうか？30レベルの予測子がある場合、10レベルにグループ化する必要がありますか？15？５？

8 cart bias

1

CART：不純物減少の増加が等しい場合の分割に最適な予測子の選択？

私の質問は分類木を扱っています。Irisデータセットの次の例を考えてみます。最初の分割に最適な予測子を手動で選択したい。CARTアルゴリズムによると、分割を行うための最良の機能は、パーティションの不純性の減少を最大化する機能であり、ジニゲインとも呼ばれます。 G i n i G a i n （N、X）= G i n i （N）− | N1|| N|G i n i （N1）− | N2|| N|G i n i （N1）G私ん私Ga私ん（N、バツ）=G私ん私（N）−|N1||N|G私ん私（N1）−|N2||N|G私ん私（N1）GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{1}) ここで、与えられた機能であり、分割がなされるべきでノードであり、と分割することによって作成された2つのつの子ノードである。は、ノードの要素数です。バツバツXNNNN1N1N_{1}N2N2N_{2}NNN| 。||。|\lvert . \rvert そして、。ここで、はノード内のカテゴリの数です KG i n …

8 r machine-learning classification data-mining cart

1

回帰木の末端ノードにおけるGLMの利点？

そのため、データから回帰ツリーを成長させて枝刈りし、ツリーのターミナルノードにGLMを適合させるアルゴリズムを書くというアイデアを試しています。私はアイデアを読み上げようとしてきましたが、テクニックの一貫した名前を見つけることができないようです。私はそれをハイブリッド回帰ツリー（HRT）、モデルツリー、および機能ツリーとして読みました。これらの用語での検索はほとんどありません。これに別の名前がないのですか？これの有効性に関する研究はどこにありますか？

8 regression generalized-linear-model cart

1

（決定木を使用した）バギングの剪定は避けるべきですか？

木の「袋詰め」アンサンブルでの剪定は不要であると主張するいくつかの投稿と論文を見つけました（1を参照）。ただし、アンサンブル内の個々のツリーに対してプルーニング（たとえば、OOBサンプルを使用）を実行することは、必ずしも（または少なくともいくつかの既知のケースでは）損傷を与えるのでしょうか。ありがとう！

8 bootstrap cart bagging

1

構造化/階層的/マルチレベルの予測子を考慮した決定木を構築する方法はありますか？

構造化/階層的/マルチレベルの予測子を考慮した決定木を構築する方法はありますか？たとえば、相互作用にドメインの知識や制約を課すことができますか？

8 regression machine-learning multilevel-analysis cart

4

rpartはデフォルトで多変量分割を使用しますか？

Rのrpart関数が多変量分割を実装するために必要なデータを保持することは知っていますが、実際に多変量分割を実行しているかどうかはわかりません。私はrpartドキュメントを見てオンラインで調べてみましたが、それを実行できる、または実行しているという情報はありません。誰もが確かに知っていますか？

8 r multivariate-analysis cart

2

分類木の成長における最適分割のためのアルゴリズムに関する文献

ではESL、セクション9.7、木が分類（または回帰）の成長における分割の計算時間と述べる段落があり、通常のようにスケール予測因子の数で、数あるがサンプル。pNlogNpNlog⁡Np N \log NpppNNN 素朴なアプローチはスケーリングをもたらし、アルゴリズムの分割部分の詳細と、典型的なスケーリングをどのように実現するかを説明する文献への参照を見つけることができませんでした。pN2pN2pN^2 pNlogNpNlog⁡Np N \log N 単純なアプローチでは、観測値の最初の順序付けの後、観測値間の中間点の間で、所定の変数の最適な分割が求められ、各分割の損失の計算は、ような時間で実行できます。。N−1N−1N-1NNN 私は（そしておそらくます）私が知っている実装のいくつかのソースコードを学ぶことができますが、参考文献はいいだろう特に時間複雑に関する。−−-

8 algorithms cart

4

勾配ブースティング-極端な予測と0.5に近い予測

2つの異なるデータセットで2つの異なるGradient Boosting Classifierモデルをトレーニングするとします。あなたは、one-one-out交差検証を使用し、2つのモデルが出力する予測のヒストグラムをプロットします。ヒストグラムは次のようになります。この：したがって、1つのケースでは、予測（サンプル外/検証セット）はほとんどが極端（0と1に近い）であり、他のケースでは、予測は0.5に近いです。それぞれのグラフから何が推測できますか？どのように違いを説明できますか？データセット/機能/モデルについて何か言えることはありますか？私の直感は、最初のケースでは、機能はデータをよりよく説明するので、モデルはデータによりよく適合します（そして、おそらくデータに適合しますが、必ずしもそうではありませんが、検証/テストセットのパフォーマンスは、機能は実際にデータをよく説明しています）。2番目のケースでは、機能がデータを適切に説明しないため、モデルがデータに近すぎません。ただし、2つのモデルのパフォーマンスは、精度と再現率の点で同じである可能性があります。それは正しいでしょうか？

7 classification cart boosting xgboost

タグ付けされた質問 「cart」

タグ付けされた質問「cart」