ロジスティック回帰の診断?


74

線形回帰の場合、診断プロット(残差プロット、標準QQプロットなど)をチェックして、線形回帰の仮定に違反しているかどうかをチェックできます。

ロジスティック回帰の場合、ロジスティック回帰モデルの適合を診断する方法を説明するリソースを見つけるのに問題があります。GLMのいくつかのコースノートを掘り下げて、ロジスティック回帰近似の診断を実行するには残差のチェックは役に立たないと単純に述べています。

インターネットを見回すと、モデルの逸脱をチェックしたり、カイ2乗検定を実行するなど、さまざまな「診断」手順もあるようですが、他の情報源は、これは不適切であり、Hosmer-Lemeshow適合度を実行する必要があると述べていますテスト。次に、このテストは実際のグループ化とカットオフ値に大きく依存する可能性がある(信頼できない可能性がある)と述べる他のソースを見つけます。

それでは、ロジスティック回帰の適合性をどのように診断する必要がありますか?


1
stats.stackexchange.com/questions/29271/…またはstats.stackexchange.com/questions/44643/…の重複(または特殊なケース)の可能性がありますが、どちらにも実際に解決する答えはありません。
ピーターエリス

1
スコット・メナードのモノグラフを読むことをお勧めします。このモノグラフは、ウェブ上で無料で完全に入手できました。
rolando2

2
ロジスティック回帰の適合度測定に関するこの質問は役立つかもしれません(ただし、適合度はもちろんモデル診断のほんの一部にすぎません):stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r- 2乗測定は1つのレポートcox / 3570
S. Kolassa-Reinstate Monica

回答:


39

ロジスティック回帰モデルの適合性を評価するために私が出会ったいくつかの新しい手法は、政治学のジャーナルからのものです。

  • グリーンヒル、ブライアン、マイケルD.ウォード&オードリーサックス。2011.分離プロット:バイナリモデルの適合を評価するための新しい視覚的方法。American Journal of Political Science 55(4):991-1002
  • エサリー、ジャスティン、アンドリュー・ピアス。2012.適合品質の評価と、バイナリ依存変数モデルの仕様ミスのテスト。政治分析 20(4):480-500PDFの事前印刷

これらの手法はどちらも、適合度テスト(Hosmer&Lemeshowなど)を置き換え、潜在的な誤仕様(特に、方程式に含まれる変数の非線形性)を特定することを目的としています。これらは、典型的なR二乗適合度が頻繁に批判されるため、特に役立ちます。

上記の両方の論文は、プロットで予測確率と観測結果を利用します- そのようなモデルの残差何であるかという不明確な問題をある程度回避します。残差の例としては、対数尤度またはピアソン残差への寄与が考えられます(ただし、もっと多くあると思います)。多くの場合(残差ではありませんが)関心のある別の指標は、DFBeta(観測値がモデルから除外されたときに係数推定値が変化する量)です。Logistic Regression DiagnosticsのこのUCLAページの Stataの例を、他の潜在的な診断手順とともに参照してください

便利ではありませんが、J。Scott Longのカテゴリ変数および限定従属変数回帰モデルは、これらのさまざまな診断手段すべてについて、簡単な方法で十分に詳細に説明できる思います。


2
ロジスティック回帰のための他の本のバケットがあります(全体ではないにしても、少なくとも部分的に)。Agrestiのさまざまなカテゴリデータ分析のテキストブック、Scott Menard、Hosmer、およびLemeshow、およびFrank HarrellのRMSブックはすべて、このフォーラムでさまざまな貢献者から推奨されているものです。
アンディW

ご回答ありがとうございます。私の質問に対する単純な答えはないと思います。私はあなたの提案を見ていきます。乾杯。
ialm

23

質問の動機が十分ではありませんでした。次のようなモデル診断を実行する理由が必要です。

  • モデルを変更して改善する可能性
  • 使用する有向テスト(つまり、非線形性または相互作用のテスト)がわからない
  • モデルの変更が統計的推論(標準誤差、信頼区間、簡単に歪める可能性があることを把握していないP

代数回帰仕様に直交するものをチェックすることを除いて(たとえば、通常の線形モデルでの残差の分布を調べる)、モデル診断は、私の意見で解決するのと同じくらい多くの問題を作成できます。これは、分布の仮定がないため、バイナリロジスティックモデルに特に当てはまります。

そのため、通常、モデルを指定するのに時間を費やすこと、特に、以前の証拠が線形性を示唆していない強いと考えられる変数の線形性を仮定しないほうが良いです。場合によっては、予測子の数が少ない場合や、すべての予測子を非線形にして(正しく)相互作用がないと仮定する場合など、適合する必要があるモデルを事前に指定できます。

モデル診断を使用してモデルを変更できると考えている人は、ブートストラップループ内でそのプロセスを実行して、誘導されたモデルの不確実性を正しく推定する必要があります。


4
モデル診断は、モデリングの目的から生じるべきであることに同意します。しかし、冒頭の段落から、データに適合するモデルをチェックするべきではないと思うという印象を受けました。これはあなたが念頭に置いていたものではないと確信しています。また、バイナリロジスティックモデルは最も確かにない分布の仮定を持っています!(2つのみの値が応答のために存在することが最も明らか)
probabilityislogic

3
Yに2つの特定の可能な値しかないと仮定する以外に、バイナリロジスティックモデルにはdistがありません。仮定。個人的には、ロジスティック回帰を使用した診断プロットはあまり使用せず、代わりに、サンプルサイズが調査の贅沢を与えるような方法でデータに適合するのに十分な柔軟性のあるモデルを指定することを選択します。OLSで使用する主な診断プロットは、残差の正規性のqqプロットです。
フランクハレル

一般化線形モデルの観点から、ロジスティックモデルは二項分布(ベルヌーイ分布)から生じます。しかし、それでも、残差を解釈するのは困難です。
New_to_this

確率変数が2つの値しかとれない場合の分布(つまり、ベルヌーイ分布)について話すことは、観測が独立していない限り分布の仮定が間違っている可能性がないため、役に立ちません。
フランクハレル

1
@FrankHarrellあなたがここで何を話しているか知っていることは分かっていますが、線形予測子(または、 GAMフレームワーク)は、ロジスティック回帰の問題を引き起こす可能性があります。あなたが言うように、多くの人はこれがデータに非独立性を作り出すことを理解していないかもしれません。生徒が最初に線形回帰に遭遇すると、線形予測子の指定ミスと誤差分布の指定ミスを区別せずに残差を調べることを学びます。
ジェイコブソコラー

5

このスレッドは非常に古いものですが、最近ではDHARMa Rパッケージを使用して、任意のGL(M)Mの残差を標準化されたスペースに変換できるため、追加すると便利だと思いました。これが完了すると、通常の方法で、分布からの偏差、予測子への残留依存性、不均一分散または自己相関などの残留問題を視覚的に評価/テストできます。解決済みの例については、パッケージビネットをご覧ください。また、CVに関する他の質問はこちらこちらをご覧ください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.