ツリーベースの回帰は、単純な線形回帰よりもパフォーマンスが悪いのでしょうか?


9

こんにちは私は回帰技法を勉強しています。

私のデータには15の機能と6000万の例(回帰タスク)があります。

多くの既知の回帰手法(勾配ブーストツリー、ディシジョンツリー回帰、AdaBoostRegressorなど)を試したところ、線形回帰は優れたパフォーマンスを示しました。

これらのアルゴリズムの中でほぼ最高のスコアを獲得しました。

これの理由は何ですか?私のデータには非常に多くの例があるので、DTベースの方法はうまく適合できます。

  • 正則化された線形回帰の尾根、なげなわのパフォーマンスが悪い

誰かが他のパフォーマンスの良い回帰アルゴリズムについて教えてもらえますか?

  • 因数分解マシンとサポートベクター回帰は、試すのに適した回帰手法ですか?

2
これは、アルゴリズムよりもデータの処理に多くの意味があります。線形回帰の構造は、データにぴったりです。
Matthew Drury 2017年

@MatthewDruryに答えてくれてありがとう。これらの特性を観察することで、自分のデータの特性を見つけようとしています。明らかに小さな機能と多くの例があります。プレーンなニューラルネットワーク回帰で最もよく機能します。グラディエントブースティングなどのノンパラメトリックモデルがパラメトリック回帰よりもわずかに機能するという事実(関数の形状を想定)により、私のデータは、多くの例に関係なく、未知のデータに多くの洞察を与えることができないと言えますか?結果からデータの特性を差し引くのに問題があります。
amityaffliction 2017年

最初に複数の線形再帰を処理し、次に残差プロットなどを調べて、適合を実際に理解します。次に、どのようにフィットが悪いかを確認できます。さまざまなアルゴリズムでデータを投げるだけでなく、適合を理解するために一生懸命働きます。
kjetil b halvorsen 2017年

@kjetilbhalvorsen返信ありがとうございます。15個の独立変数があります。どうすれば残差適合からプロットまたは洞察を得ることができますか。手伝って頂けますか?
amityaffliction 2017年

回答:


11

さまざまなアルゴリズムでデータを投げて、予測の品質を調べるだけではいけません。データをよりよく理解する必要があります。そのための方法は、最初にデータ(周辺分布)を視覚化することです。最終的に予測にのみ関心がある場合でも、データをよりよく理解すれば、より優れたモデルを作成できるようになります。したがって、最初に、データ(およびデータに適合した単純なモデル)をよりよく理解しようとすることで、より複雑で、できればより良いモデルを作成できるようになります。

r=YY^=12

線形回帰の背後にある仮定を理解するために何を確認する必要があるかを知るには、線形回帰の通常の仮定の完全なリストは何ですか?を参照してください

rY^

他の仮定は線形性です。それらをチェックするには、モデルの各予測子に対して残差をプロットします。これらのプロットに曲率が見られる場合、それは線形性に対する証拠です。非線形性が見つかった場合は、いくつかの変換を試すか、(より現代的なアプローチで)非線形予測子を非線形の方法でモデルに含めることができます。おそらくスプラインを使用します(6000万の例があるので、かなり実現可能です! )。

バツzバツz

本の長さの扱いは、R Dennis CookとSanford Weisbergです:「残差と回帰における影響」、Chapman&Hall。より現代的な本の長さの扱いはフランク・ハレルです:「回帰モデリング戦略」。

そして、タイトルの質問に出くわす:「ツリーベースの回帰は、単純な線形回帰よりも悪いパフォーマンスをすることができますか?」はい、もちろん可能です。ツリーベースのモデルには、回帰関数として非常に複雑なステップ関数があります。データが本当に線形モデルから得られたもの(シミュレートされたものとして動作)の場合、ステップ関数は不適切な近似になる可能性があります。また、他の回答の例に示されているように、ツリーベースのモデルは、観測された予測子の範囲外にひどく外挿する可能性があります。また、randomforrestを試して、単一のツリーよりもはるかに優れていることを確認することもできます。


3
明確にするために: "周辺分布"と言うとき、各変数の1変量分布を見て言うこともできますよね?それらは、散布図または何かのマージンに分布が現れるという意味で「限界的」です。
マークホワイト

もう1つの質問:「さまざまなアルゴリズムでデータを投げて、予測の質を調べるだけではいけない」とあなたは言う。私の質問は:なぜですか?あなたがテストデータの正確さをチェックしているなら、それはです。予測に関心がある場合は、タイプIエラーや、統計的有意性と複数の検定に関心がある場合に問題になるような問題について心配する必要はありません。
マークホワイト

最終的に予測にのみ関心がある場合でも、データをよりよく理解すれば、より優れたモデルを作成するためのより良い立場になります。したがって、最初に、データ(およびデータに適合した単純なモデル)をよりよく理解することを試みてください。そうすれば、より複雑な、できればより良いモデルを作成するためのはるかに優れた立場になります。
kjetil b halvorsen 2017年

9

ピーター・エリス非常に単純な例を持ってい ます

リンク先サイトからアップロードした画像

ここで、線形回帰は回帰ツリーよりも優れており、サンプルの観測値を超えて外挿します。

この画像では、黒い点が観測値で、色付きの点が予測値です。実際のデータは、ノイズのある単純な線に従って生成されるため、線形回帰とニューラルネットワークは、観測されたデータを超えて外挿するのに適しています。ツリーベースのモデルにはありません。

現在、6000万のデータポイントがあるため、これについて心配する必要はありません。(しかし、将来はいつも私を驚かせます!)しかし、それは木が失敗する1つの状況についての直観的な説明です。


直感的な回答ありがとうございます。データポイントが多いのですが、データの特性を考えると、外挿できないと思います。
amityaffliction 2017年

NNベースのモデルは線形回帰よりもパフォーマンスが高いためです。
amityaffliction 2017年

もう一つ質問。非パラメーター回帰手法の一般的な問題は「外挿するのが難しい」ですか?
amityaffliction 2017年

ノンパラメトリックは広いネットです。外挿するには、基礎となる連続関数を特定する必要があります。ツリーモデルは、多くの小さなステップを特定することに似ているため、この例では、観測されたサンプルのドメインの外側の線に沿っていません。
アンディW

5

木が真に線形の関係をモデル化するには不適切であることはよく知られている事実です。ISLR本のイラスト(図8.7)は次のとおりです。 図8.7

上の行:真の決定境界が線形であり、影付きの領域で示されている2次元分類の例。線形境界を想定する従来のアプローチ(左)は、軸に平行な分割を実行する決定木(右)よりも優れています。

したがって、従属変数が多かれ少なかれ線形的な方法でリグレッサに依存している場合、「線形回帰は優れたパフォーマンスを発揮する」と期待できます。


2

意思決定ツリーベースのアプローチ(CART、C5.0、ランダムフォレスト、ブースト回帰ツリーなど)は、データ内の均一な領域を識別し、その領域に含まれるデータの平均値を対応する「葉」に割り当てます。したがって、それらはきめ細かく、出力に一連のステップを示す必要があります。「森林」に基づくものはその現象をはっきりと示しませんが、それはまだそこにあります。多数の木の集合はそれを微妙に微調整します。与えられた値が元の範囲外にある場合、データは「葉」に割り当てられます。これには、トレーニングデータセットで見つかった極端な状態が含まれ、結果として、その葉に含まれる値の平均値が出力されます。したがって、外挿は不可能です。ちなみにANNは貧弱な外挿者です。確認してもいい:Pichaid Varoonchotikul-人工ニューラルとヘッティアラッチなどを使用した洪水予測。降雨のモデリングのための人工ニューラルネットワークの外挿-流出関係は非常に例証的であり、ネットで簡単に見つけることができます。幸運を!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.