回答:
RFの実装はわずかに異なります。Salford Systems 独自の実装は、R のバニラ実装よりも優れているはずです。アルゴリズムの説明は、Friedman-Hastie-Tibshirani、第2版、第3版のESLにあります。章全体(15日)はRFに当てられており、実際には元の論文よりも明確であることがわかりました。ツリー構築アルゴリズムの詳細については、p.588をご覧ください。この本はオンラインで入手できるため、ここで複製する必要はありません。
主なアイデアは、バギング手順であり、ツリーをランダムにしません。詳細には、各ツリーは、元のセットから置換されて描画されたオブジェクトのサンプルに基づいて構築されます。したがって、各ツリーには見られないオブジェクトがいくつかあります。これが、全体のアンサンブルをより不均一にし、一般化をより良くするものです。
さらに、各分割でM(またはmtry
)のランダムに選択された属性のみが考慮されるように、ツリーが弱体化されています。Mは通常、セット内の属性の数の平方根です。これにより、剪定されていないため、ツリーのオーバーフィットが少なくなります。詳細を見つけることができますこちらをください。
一方、木はランダムな方法で作られているエクストリームランダムフォレストと呼ばれるRFの変種は、(分割のない最適化が存在しない)がある-相談、私は考えてこの参照を。