さまざまなアルゴリズムでデータを投げて、予測の品質を調べるだけではいけません。データをよりよく理解する必要があります。そのための方法は、最初にデータ(周辺分布)を視覚化することです。最終的に予測にのみ関心がある場合でも、データをよりよく理解すれば、より優れたモデルを作成できるようになります。したがって、最初に、データ(およびデータに適合した単純なモデル)をよりよく理解しようとすることで、より複雑で、できればより良いモデルを作成できるようになります。
r私= Y私− Y^私、私は= 1 、2 、... 、n個
線形回帰の背後にある仮定を理解するために何を確認する必要があるかを知るには、線形回帰の通常の仮定の完全なリストは何ですか?を参照してください。
r私Y^私
他の仮定は線形性です。それらをチェックするには、モデルの各予測子に対して残差をプロットします。これらのプロットに曲率が見られる場合、それは線形性に対する証拠です。非線形性が見つかった場合は、いくつかの変換を試すか、(より現代的なアプローチで)非線形予測子を非線形の方法でモデルに含めることができます。おそらくスプラインを使用します(6000万の例があるので、かなり実現可能です! )。
バツ私⋅ Z私バツz
本の長さの扱いは、R Dennis CookとSanford Weisbergです:「残差と回帰における影響」、Chapman&Hall。より現代的な本の長さの扱いはフランク・ハレルです:「回帰モデリング戦略」。
そして、タイトルの質問に出くわす:「ツリーベースの回帰は、単純な線形回帰よりも悪いパフォーマンスをすることができますか?」はい、もちろん可能です。ツリーベースのモデルには、回帰関数として非常に複雑なステップ関数があります。データが本当に線形モデルから得られたもの(シミュレートされたものとして動作)の場合、ステップ関数は不適切な近似になる可能性があります。また、他の回答の例に示されているように、ツリーベースのモデルは、観測された予測子の範囲外にひどく外挿する可能性があります。また、randomforrestを試して、単一のツリーよりもはるかに優れていることを確認することもできます。