ランダムフォレストを構築するためによく知っている方法は次のとおりです(http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmから)
フォレスト内にツリーを構築するには、次のようにします。
- サイズNのサンプルをブートストラップします。ここで、Nはトレーニングセットのサイズです。このブートストラップサンプルを、このツリーのトレーニングセットとして使用します。
- ツリーの各ノードで、M個の特徴のm個をランダムに選択します。分割するこれらのm個の特徴の中から最適なものを選択します。(ここで、mはランダムフォレストのパラメーターです)
- 各ツリーを可能な限り最大に成長させます-つまり剪定はしません。
このアルゴリズムは手順レベルで意味があり、確かに良い結果が得られますが、手順1、2、3の背後にある理論的な動機は何かはわかりません。誰かがこの手順を思いついた動機とその理由を説明できますか?うまくいく?
例:なぜステップ1を実行する必要があるのですか?通常の分散減少の目的でブートストラップしているようには見えません。