ランダムフォレストでの「ノードサイズ」とは何ですか?


回答:


24

決定木は、トレーニングセットの再帰的な分割によって機能します。決定木のすべてのノードは、トレーニングセットのデータポイントのセットにます。tnt

n_tは各ノードのサイズです

あなたは、パラメータを見つけるかもしれないnodesizeいくつかのランダムな森林のパッケージで、例えばR:これは、最小ノードサイズ、最小のノードサイズ上の例では、このパラメータは、暗黙のうちにあなたの木の深さを設定します10です。

nodesize Rランダムフォレストパッケージから

ターミナルノードの最小サイズ。この数を大きく設定すると、小さなツリーが成長します(したがって、時間がかかりません)。デフォルト値は、分類(1)と回帰(5)で異なることに注意してください。

他のパッケージではdepthWEKAのようなパラメーターを直接見つけることができます。

-depth WEKAランダムフォレストパッケージから

木の最大の深さ、無制限の場合は0。(デフォルト0)


1
「レコード」とは何ですか?データポイントを意味しますか?各ノードが一連のレコードに関連付けられているのはなぜですか?ランダムフォレストは非常によく理解していますが、専門用語の意味がわかりません。
wolfsatthedoor

はい、データポイントを意味しました。通常、データポイントをレコード、インスタンス、または例と呼ぶ場合があります。
シモーネ

それでは、ツリーの過剰適合を避けるための最小ノードサイズの経験則はありますか?私はそれがトレーニングデータのサイズに依存するので、おそらくデータセットサイズの特定の割合に依存すると思いますか?
Seanosapien

1
ランダムフォレストでは、ツリーは完全に成長します。ノードサイズは1です。多くのツリーを成長させると、過剰適合が回避されます。デシジョンツリーでは、さらに注意が必要です。木は完全に成長していないため、過剰適合を避けるために剪定を実行する必要があります。
シモーネ

1
ふるい分けは、ツリーを単純化し、過剰適合を避けるための何らかの機能選択のようです。単一の木の剪定は常に有益だと思います。代わりに、ふるい分けによって精度が低下することがありますが、ツリーは単純化されます。
シモーネ

2

nodesizeが「in-bag」サンプリングにあるのか、「out-of-bag」エラーにあるのかは明確ではありません。「out-of-bag」サンプリングの場合は、わずかに制限されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.