回帰のランダムフォレストは「真の」回帰ですか?


18

回帰にはランダムフォレストが使用されます。しかし、私が理解していることから、彼らは各葉に平均目標値を割り当てています。各ツリーのリーフは限られているため、回帰モデルからターゲットが達成できる特定の値のみがあります。したがって、それは単なる「離散」回帰(ステップ関数のような)ではなく、「連続」な線形回帰ではないのでしょうか?

これを正しく理解していますか?はいの場合、ランダムフォレストは回帰においてどのような利点を提供しますか?


回答:


23

これは正しいです。ランダムフォレストは、再帰的なバイナリパーティション分割によって機能する決定木に基づいているため、連続変数を離散化します。しかし、十分なデータと十分な分割がある場合、多くの小さなステップを持つステップ関数は、滑らかな関数を近似できます。したがって、これは問題になる必要はありません。単一の予測子で滑らかな応答を本当にキャプチャしたい場合は、特定の変数の部分的な効果を計算し、滑らかな関数をそれに適合させます(これは、この段階的な特性を保持するモデル自体には影響しません)。

ランダムフォレストには、一部のアプリケーションで標準の回帰手法よりも優れた利点がいくつかあります。3つだけを挙げると:

  1. それらは、任意の数の予測子の使用を許可します(データポイントよりも多くの予測子が可能です)
  2. 先験的な仕様なしで複雑な非線形形状を近似できる
  3. 先験的な仕様なしで予測間の複雑な相互作用をキャプチャできます。

それが「真の」回帰であるかどうかについては、これはいくぶん意味論的です。結局、区分的回帰も回帰ですが、滑らかでもありません。以下のコメントで指摘されているように、カテゴリカル予測子を使用した回帰と同様です。


7
また、カテゴリカルフィーチャのみの回帰もスムーズではありません。
ティム

3
1つのカテゴリフィーチャを使用した回帰でもスムーズに実行できますか?
デイブ

4

離散的ですが、固定ビット数の浮動小数点数形式の出力は離散的です。ツリーに100の葉がある場合、100の異なる番号を付けることができます。それぞれ100個の葉を持つ100個の異なるツリーがある場合、ランダムフォレストは理論的に100 ^ 100個の異なる値を持つことができ、200(10進数)桁の精度、または約600ビットを与えることができます。もちろん、オーバーラップが発生するため、実際には100 ^ 100個の異なる値が表示されることはありません。分布は、極端になればなるほど離散的になる傾向があります。各ツリーには最小リーフ(他のすべてのリーフ以下の出力を提供するリーフ)があり、各ツリーから最小リーフを取得すると、それよりも低くなることはありません。したがって、フォレストの全体的な最小値がいくつかあります。そして、その値から逸脱すると、いくつかのツリーを除くすべてのツリーが最小リーフになり、離散ジャンプで最小値の増加からわずかな偏差が生じます。しかし、極端な信頼性の低下は、ランダムフォレストだけでなく、一般的な回帰の特性です。


葉は、トレーニングデータから任意の値を格納できます(したがって、適切なトレーニングデータを使用すると、100枚の葉の100本の木には、最大10,000個の個別の値を格納できます)。ただし、返される値は、各ツリーから選択したリーフの平均です。したがって、その値の精度のビット数は、ツリーが2本でも100本でも同じです。
ダレン・クック

3

答えは、回帰の定義によって異なります。回帰モデルの定義と区切りを参照してください。しかし、通常の定義(または定義の一部)は、回帰が条件付き期待値をモデル化することです。そして、回帰ツリーは確かに条件付き期待値の推定量として見ることができます。

葉ノードでは、その葉に到達するサンプル観測値の平均を予測し、算術平均は期待値の推定量です。ツリーの分岐パターンは、条件付けを表します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.