決定木空間とランダムフォレストのMCMCサンプリング


11

ランダムフォレストはの集まりである決定木ランダムに(そして時にはトレーニングデータを袋詰め)と、各ツリーを構築するためのいくつかの特徴のみを選択することで形成されます。どうやら彼らはよく学び、一般化しています。誰かが決定木空間のMCMCサンプリングを行ったか、ランダムフォレストと比較しましたか?MCMCを実行してすべてのサンプリングされたツリーを保存すると、計算コストが高くなる可能性があることはわかっていますが、計算コストではなく、このモデルの理論的な機能に興味があります。つまり、次のようなものです。

  1. ランダムな決定木を構築します(恐らく恐ろしく実行されます)
  2. ようなものでツリーの尤度を計算するか、おそらくP p r i o rT r e e )を追加します期間。PTree|DataαPData|TreePprorTree
  3. ランダムなステップを選択してツリーを変更し、尤度基づいて選択します。PTree|Data
  4. Nステップごとに、現在のツリーのコピーを保存します
  5. 大きなN * M回の場合は3に戻ります
  6. 保存されたM個のツリーのコレクションを使用して予測を行う

これにより、ランダムフォレストと同様のパフォーマンスが得られますか?ここでは、ランダムフォレストとは異なり、適切なデータや機能を破棄するわけではありません。


2
これが正確にスケッチした手順かどうかはわかりませんが、BARTがあります。PDF
次のとおりです

回答:



4

残念ながら、チップマン等。Bayesian CARTアプローチでは、最も可能性の高いツリーのみを抽出します。彼らは木を平均して、パフォーマンスをランダムフォレストやエクストラツリーと比較しようとしたことはありません。

チップマンのBART論文を読んだところです。私が正しく理解していれば、それはm個のツリーのコレクションに対するK個のサンプルのベイズ平均です。それは多くの点で興味深いものであり、本当に良いように見えます。m = '1'の場合は、事後からの1つのツリーのKサンプルの単純なベイズ平均です。ただし、その特定の側面についてはあまりテストが行​​われていません。そして、ランダムフォレストやエクストラツリーが真のベイズモデルとどのように比較されるかを知りたいと思っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.