回帰におけるB-スプラインVS高次多項式


10

具体的な例や課題は考えていません。私はbスプラインを使うのが初めてで、この関数を回帰のコンテキストでよりよく理解したかったのです。

応答変数といくつかの予測子x 1x 2との関係を評価したいとします。x p。予測子には、いくつかの数値変数といくつかのカテゴリカル変数が含まれています。yx1,x2,...,xp

回帰モデルを当てはめた後、数値変数の1つ、たとえばが有意であるとしましょう。その後の論理的ステップは、オーバーフィッティングなしで関係を適切に説明するために、高次多項式、たとえばx 2 1x 3 1が必要かどうかを評価することです。x1x12x13

私の質問は:

  1. どの時点で、bスプラインまたは単純な高次多項式を選択しましたか。例:R:

    y ~ poly(x1,3) + x2 + x3
    

     y ~ bs(x1,3) + x2 + x3
    
  2. プロットを使用して、これら2つの間の選択を通知する方法と、プロットから本当に明確でない場合はどうなるか(例:大量のデータポイントが原因)

  3. x 3の間の双方向相互作用項をどのように評価しますかx2x3

  4. 上記の方法は、モデルの種類によってどのように変わりますか

  5. 高次多項式を使用せず、常にBスプラインをフィッティングして高い柔軟性にペナルティを課すことを検討しますか?


9
私はこれについて広範囲にわたってここに書きました:madrury.github.io/jekyll/update/statistics/2017/08/04/…–
Matthew Drury

どれだけよく開発されてmgcvいるかを考えると、(一般化された)加法モデルを使用しないのはなぜですか。滑らかさの選択は自動的に行われ、推論方法は十分に開発されています。
generic_user 2017年

回答:


17

私は通常、多項式ではなくスプラインのみを考慮します。多項式はしきい値をモデル化できず、多くの場合望ましくないグローバルです。つまり、予測子のある範囲での観測は、異なる範囲でのモデルの動作に強い影響を与えます(Magee、1998、The American StatisticianおよびFrank Harrell's Regression Modeling Strategies)。そしてもちろん、極値ノットの外側で線形である制限付きスプラインは、予測値の極値での外挿または内挿に適しています。

多項式を検討した方がよいケースの1つは、技術者以外の読者にモデルを説明することが重要な場合です。人々は多項式をスプラインよりもよく理解しています。(編集:マシュードゥルーリーは、人々は多項式をスプラインよりもよく理解しているだけだと思うかもしれない指摘しています。私はこの質問には賛成しません。)

プロットは、多くの場合、非線形性を処理するさまざまな方法を決定するのにあまり役に立ちません。相互検証を行う方が良い。これは、相互作用を評価したり、適切なペナルティを見つけるのにも役立ちます。

最後に、上記のポイントは統計モデルまたはMLモデルに有効であるため、モデルの種類によって私の答えは変わりません。


回答ありがとうございます。とても役に立ちました。簡単なフォローアップ質問です。結び目を見つける「最先端の」方法はありますか?私の最良の推測は1)です。例:変数が月数で時間を表す場合、6または12ごとにノットを使用しますか?2)変数の範囲を通過するシーケンスを導入し、交差検証を使用して最適なノットを見つけますか?
Vasilis Vasileiou 2017年

8
人々、スプラインよりも多項式をよく理解していると考えています。
Matthew Drury

3
ノットの配置について:交差検証は1つのアプローチですが、正直に言うと、ノットが適切に配置され、あまりクラスター化されていない限り、結果は配置の認識にまったく影響を受けないと思います。フランクハレルは、回帰モデル化戦略における予測子の分布の分位数に関するヒューリスティックノット配置の表を持っています。
ステファンコラサ2017年

1
あなたの答えはこの文脈で完全に有効ですが、多くの実際のプロセスは多項式でよりよくモデル化できることを考えると、あなたのステートメントは非常に強力です。
コアロ2017年

6

「統計学習の要素」のセクション7.4.5では、次の理由により、スプラインは多項式回帰よりも優れた結果をもたらすことが多いと言われています。

  • それは柔軟なはめあいを生成します。
  • より安定した見積もりを作成します。
  • 多項式は境界で望ましくない結果を生成する可能性があります。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.