ランダムフォレスト分類器の最適なパラメーターは何ですか?


14

現在、バイナリ分類問題のためにMATLABでRFツールボックスを使用しています

データセット:50000サンプルと250を超える機能

それで、木を成長させるために、各分割で木とランダムに選択された特徴の数は何ですか?他のパラメータは結果に大きく影響しますか?

回答:


8

多数の木、たとえば100本を選びます。インターネットで読んだものから、選びます250logMlog2

通常、相互検証は最適なパラメーターを見つけるための鍵ですが、ランダムフォレストについては十分に知りません。


ブライマン使用 1+ログ2M特徴。あなたのリンクが機能しないため、ここにコメントを残しています:)
アントワーヌ

ありがとう、リンクを更新しました。今、それはバークレーに直接です。
ウォック

12

数が多いほど良い。このパラメーターでほとんどオーバーシュートすることはできませんが、もちろん上限はRFに費やす計算時間に依存します。
良いアイデアは、最初に長いフォレストを作成し、次にOOBの精度が収束するタイミングを確認することです(MATLAB実装で利用できることを望みます)。

試行された属性数のデフォルトは、属性の整数の平方根ですが、通常、フォレストはこのパラメーターの値についてあまり敏感ではありません-実際、RFの確率的側面により大きな変動が生じる可能性があるため、実際には最適化されることはほとんどありません。


7

数が多ければ多いほど良い:同意した。

試行される属性の数は異なります。情報が機能間で広がっているかどうかについて、アプリオリがすでにある場合。情報が多くの機能で共有されている場合、そのパラメーターの値が小さいほど、より良い結果が得られます。一方、少数の機能のみが情報を保持している場合は、より大きな値を使用する必要があります。言い換えると、関連する変数が多い場合、値が小さいほど適切であり、無関係な変数が多い場合、値が大きいほど優れています。


1
試行された属性の数についてのあなたの主張は理にかなっていますが、これについての引用はありますか?
ジェームズOwers

私はこの論文を読むことをお勧めします: github.com/glouppe/phd-thesis だけでなく、この1: orbi.ulg.ac.be/handle/2268/25737
0asa
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.