決定木と回帰-予測値がトレーニングデータの範囲外になることはありますか?


11

意思決定ツリーに関しては、予測値はトレーニングデータの範囲外にありますか?

たとえば、ターゲット変数のトレーニングデータセットの範囲が0〜100の場合、モデルを生成して別のモデルに適用すると、値を-5にできますか?または150?

意思決定ツリーの回帰についての私の理解は、それが依然としてルールベース-左/右の進行であり、トレーニングセットのツリーの下部では特定の範囲外の値を見ることができないため、それを予測しますか?


1
勾配ブーストツリーに関する同様の質問については、stats.stackexchange.com / questions / 304962 /…を
Adrian

回答:


10

あなたは完全に正しい:古典的な決定木は歴史的に観察された範囲外の値を予測することはできません。彼らは外挿しません。

同じことがランダムフォレストにも当てはまります。

理論的には、ツリーの葉が単一の値を与えず、単純な回帰(特定の数値の独立変数に依存する変数を回帰するなど)を含む、いくぶん複雑なアーキテクチャ(植物?)の議論が時々見られます。ツリー内を移動すると、どのような場合にDVを後退させる数値IVに関するルールセットが表示されます。このような場合、この「ボトムレベル」の回帰を推定して、まだ観測されていない値を得ることができます。

ただし、標準の機械学習ライブラリがこれよりやや複雑な構造を提供するとは思いません(最近、RのCRANタスクビューでこれを探しました)本当に複雑なものはないはずです。葉に回帰を含む独自のツリーを実装できる場合があります。


1
Rで葉の回帰をサポートするmobForestについてはまばらに読みました、stats.stackexchange.com / questions / 48475 / mobforest
Soren Havelund Welling

1
@SorenHavelundWelling:面白そうですね。ポインタをありがとう!
Stephan Kolassa、2016年

1
木の葉で線形回帰モデルを提供する最初のアルゴリズムの1つは、QuinlanのM5でした。その近似は、WekaのM5P()(RからRWekaでインターフェース)で使用できます。GUIDと呼ばれる問題の公平なアルゴリズムは、Lohによって最初に提案されました。彼のスタンドアロンパッケージのバイナリは、彼のWebサイトにあります。最後に、モデルベース(MOB)の再帰的パーティショニングアルゴリズムは、このようなさまざまなモデルを包含しています。これはRパッケージpartykitで利用可能です。mob()は汎用ツールであり、lmtree()とglmtree()は、葉に(一般化された)線形モデルを持つツリーへの適応です。
Achim Zeileis


1
mobForestがCRANに戻ってきたことをお知らせします:cran.r-project.org/web/packages/mobForest/index.html
mkt-Reinstate Monica

6

また、キャレットパッケージのキュビストも確認してください。ターミナルノードで線形回帰を構築し、トレーニングデータの応答値の範囲の上下に予測を外挿できます。末端パラメーターは、ハイパーパラメーターとして提供される最近傍に基づいて平均化することもできるため、非常に正確な相互検証された予測を提供できる可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.