回帰モデルが適切かどうかを確認する方法


10

'glm'を使用してロジスティック回帰モデルの精度を見つける1つの方法は、AUCプロットを見つけることです。連続応答変数(ファミリー= 'ガウス')で見つかった回帰モデルについて同じことを確認するにはどうすればよいですか?

回帰モデルがデータにどの程度適合しているかを確認するためにどのような方法が使用されていますか?


あなたは見ていたくてr-squared、タグやgoodness-of-fit..タグを
マクロ

2
線形リンクを持つ「ガウス」族は、通常の最小二乗(OLS)回帰です。そのような適合をチェックする方法は、おそらくこのサイトの1000の質問で議論されています(私は誇張していません)。
whuber

このスレッドは関連しています:stats.stackexchange.com/q/414349/121522
mkt-Monica

回答:


15

まず、「線形回帰モデル診断」について簡単に検索することをお勧めします。しかし、ここに私があなたに確認することを勧めるいくつかがあります:

想定が十分に満たされていることを確認します

  • scatterplotまたは成分と残差プロットを使用して、独立予測子と従属変数間の線形関係を調べます。

  • 予測値に対して標準化された残差でプロットを作成し、非常に高い残差で極値が存在しないことを確認します。残差の広がりは、予測値に沿ってほぼ同様であり、残差の平均の上下にほぼ等しく広がります。ゼロ。

  • y軸を残差変更することもできます。このプロットは、不等分散を識別するのに役立ちます。2

  • 研究デザインを再検討して、独立性の仮定が妥当であることを確認します。

  • 分散インフレ係数(VIF)または許容統計を取得して、共線性の可能性を調べます。

潜在的な影響力のあるポイントを調査する

  • CookのD、DFits、DF Betaなどの統計をチェックして、特定のデータポイントが回帰結果を大幅に変更しているかどうかを確認します。あなたはここでもっと見つけることができます。

と調整済み統計の変化を調べるR 2R2R2

  • 平方和の総和に対する回帰平方和の比率であるは、従属変数の変動性の何%がモデルによって説明されているかを知ることができます。R2
  • 調整されたを使用して、追加の予測子によってもたらされた追加の二乗和が本当にそれらが取る自由度に値するかどうかを確認できます。R2

必要なやり取りを確認する

  • メインの独立予測子がある場合、その独立効果を解釈する前に、他の独立変数と相互作用しているかどうかを確認してください。相互作用を調整しないままにしておくと、推定にバイアスがかかる可能性があります。

モデルを別のデータセットに適用し、そのパフォーマンスを確認する

  • また、他の個別のデータに回帰式を適用して、それがどれだけうまく予測できるかを確認することもできます。散布図のようなグラフや、観測値との差異(%)などの統計は、良い出発点として役立ちます。

2
(+1):非常に完全な答えです!Rを使用している場合、plot.lmPenguin_Knightが言及する診断プロットのほとんどを提供できます。
Zach

4

私は回帰モデルを交差検証して、新しいデータにどれだけうまく一般化できるかを確認するのが好きです。私の選択基準は、交差検証済みデータの平均絶対誤差ですが、二乗平均平方根誤差の方が一般的であり、同等に役立ちます。

R2は、モデルがトレーニングデータにどの程度適合しているかを示す適切なメトリックではありません。トレーニングデータで計算されたほとんどのエラーメトリックは、適合しすぎる傾向があるためです。トレーニングセットでR2を計算する必要がある場合は、調整されたR2を使用することをお勧めします。


1

を使用して、モデルがトレーニングデータにどれだけ適合するかを調べることができます。これにより、データの分散の何パーセントがモデルによって説明されるかがわかります。R2

実際の値と比較した場合、テストセットでの予測のRMSE(二乗平均平方根誤差)を使用することをお勧めします。これは、連続変数の予測誤差を報告する標準的な方法です。


1
@マクロしかし、質問は当初、ガウス誤差のあるOLS回帰のパフォーマンスメトリックを求めていました。彼はロジスティック回帰から来ています。
エリック

@Erik、ありがとう、私は読み違いました。とにかく、最初の部分については、を単独で使用して、「私の回帰モデルが適切かどうかを確認する」ことでOPの言葉を使用することはできないと思います。モデルは、高いまま、大部分のデータを効果的に予測するために惨めに失敗する可能性があります。例についてはここを参照してください-例(1)では、予測力はほとんどありませんが、はまだ高いです。R 2 R 2R2R2R2
2013

@マクロ、私はあなたのコメントに同意しますが、OPを正しい方向に向けるための簡単な説明を目指していました
BGreene 2013

0

ノンパラメトリック(たとえば、カーネル回帰)またはセミパラメトリック推定をプロットし、それをパラメトリック近似曲線と比較することにより、パラメーター推定器の関数形式をチェックするのに慣れています。多くの場合、これは相互作用項や高次の項を含めるよりも速く(そしておそらくより洞察に富む)最初のステップであると思います。

Rパッケージnpは、多くの優れたノンパラメトリックおよびセミパラメトリック関数を提供し、そのVignetteは適切に記述されています。http//cran.r-project.org/web/packages/np/vignettes/np.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.