ノンパラメトリック回帰を使用するのはいつですか?


9

SASでPROC GLMを使用して、次の形式の回帰方程式を当てはめています

Y=b0+b1バツ1+b2バツ2+bバツ+b4t

結果の赤残差のQQプロットは、正規性からの逸脱を示します。変換は、残差を正規化するのに役立ちません。Y

この時点で、PROC LOESSなどのノンパラメトリックメソッドに安全に切り替えられますか?

私はすでにPROC LOESSを使用しており、PROC GLMよりフィット感が良く見えます。しかし、私はノンパラメトリック回帰についてはあまり知識がありません。パラメトリック回帰よりもノンパラメトリック回帰をいつ選択するかわかりません。

誰かがこれを手伝ってくれる?

先に進み、別の質問を追加します。以下は、モデル内の変数の説明です。 時々、負の予測コストを受け取ります。これは意味がありません。この問題にどのように対処できますか?

Y=医療費バツ1=注射回数バツ2=手術の数バツ=理学療法の数t=時間

2
もちろん、そのログをモデル化することで、負のコストの予測を回避できlogY=b0+b1バツ1+b2バツ2+bバツ+b4t
Dirk Horsten

回答:


10

残差のQQplotを調べる前に、モデルの予測子に対して(そしておそらく、使用していない他の変数に対して)残差をプロットすることにより、適合の品質を評価する必要があります。このプロットには非線形性が表示されます。変数の効果が実際に線形である場合、に対する残差のプロットは、構造が表示されない「水平」であると予想されます。バツバツ

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

つまり、線resid = 0を中心とする、ポイントのランダムな水平「ブロブ」です。

効果が非線形の場合は、このプロットにある程度の曲率が見られるはずです。(そして、上記のプロットを使用して、非線形性が整理されるまでQQplotsを無視してください!)

また、考えられる相互作用(通常は積項によってモデル化されます)についても検討する必要があります。つまり、1つの変数の効果は別の変数のレベルに依存します(3つの変数すべてが同時に高い値を持っている場合、おそらくいくつかの特に難しいことを示します)患者ですか?もしそうなら、相互作用が必要になる可能性があります)。

相互作用と変換を試みた後、非線形モデルを使用する場合(試してみましたlog(Cost)か?)いくつかのbox-cox変換を試してみましたか?あなたは多重回帰を持っているので、それloessはあなたが必要とするものではないと私は思います、あなたは探すべきですgam(一般化された付加モデル、SASはそれを持っているはずです、Rではパッケージにありますmgcv)。


1
貴重な情報をありがとう。線形回帰でlog(cost)を試しましたが、あまり役に立ちませんでした。相互作用効果を追加して、何が起こるかを観察します。また、変換を再試行します。私は、私の発展と発見をみんなに投稿し続けます。
2012

6

LOESSは、データが本当に直線に沿っていない限り、常に回帰よりも適切な近似を提供します。LOESSは、データの近くを通過するように設計された局所線形近似です。これらのメソッドは基本的に探索的です。また、近似の限界を超えて線形モデルを外挿することは危険ですが、LOESSの場合、外挿は無謀です。

モデルが負のコストを与える場合、線形回帰が変数に適切でないことはかなり良い兆候です。あなたはあなたが変形を試みたと言います。予測因子に対するコストのログを取りましたか?

物事の性質上、コストとあなたが言及する変数の間に単純な関係があることはほとんどありません。線形回帰の目的は、ある種の相関関係が存在することを単に示すことであり、おそらく、適切な予測子のセットを選択することです。


1
負のコストは線形回帰が適切ではない可能性があることを示していると言及したとき、それは非常に理にかなっています。分析を続け、いくつかの相互作用を追加します。ありがとうございました。
2012

3

残差分析を行うためのブラボー。一般的なアナリストよりも先に進みます。(ただし、モデルの説明は、エラー構造を説明しないことで不十分です。)Xの変換とYの変換を検討する必要があります。SASがRの背後でスプラインフィットを使用したモデリングを行っていることは理解していますが、最近のバージョンではその機能が提供されていることを理解しています。X項に制限付き3次スプラインフィットを追加することを検討してください。参考として、フランク・ハレルのテキスト「回帰モデリング戦略」は打ち負かすのが難しいです。このアプローチについては、確かな統計的議論があります。これは、他の方法では見落とされがちなデータの構造の発見を可能にするパラメトリックアプローチです。


Yバツ

logY=b0+b1logバツ1+b2logバツ2バツ1バツ2
ディルクホルステン

あなたのコメントは私の応答にかなり正接しているように見えます(また、腕による注入の分割は決して言及されていないので、質問には疑問です)スプライン関数が対数変換に相当するとは思わないことを望みます。Yの対数変換によりモデルが作成され、モデルがコストスケールに変換されると、予測子内で乗法的になります。これはかなり大きな変更であり、問​​題を質問者に適切に説明していないものです。
DWin 2015

2

kjetilからいくつかの良い提案があったと思います。非正規残差は、線形または非線形回帰からノンパラメトリック回帰にジャンプする必要があることを意味しないことを付け加えます。ノンパラメトリック回帰を行うことにより、関数型の構造を放棄します。あなたが最初に行くことができるOLS回帰に代わる堅牢な回帰があります。次に、次のステップが必要な場合は、一般化線形モデルと一般化加法モデル。LOESSは私の見解ではあなたの最後の手段であるべきです。私はその点でkjetilに同意すると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.