ロジスティック回帰の残差はどういう意味ですか?


62

この質問に答える際に John Christieは、残差を評価することによりロジスティック回帰モデルの適合性を評価することを提案しました。OLSで残差を解釈する方法に精通しています。それらはDVと同じスケールであり、yとモデルによって予測されたyの差は非常に明確です。ただし、ロジスティック回帰では、残差がロジスティック回帰で何を意味するのかわからなかったため、過去にAICなどのモデル近似の推定値を調べてきました。見た後Rのヘルプファイル、私はRで利用できるGLM残差の5種類があることがわかり少しc("deviance", "pearson", "working","response", "partial")。ヘルプファイルは以下を参照します。

私はそのコピーを持っていません。これらの各タイプの解釈方法を説明する簡単な方法はありますか?ロジスティックコンテキストでは、残差の二乗和がモデルの適合性の有意義な尺度を提供しますか、それとも情報量基準の方が良いでしょうか?


2
この質問には未回答のままの要素があります。たとえば、「ピアソン」、「作業」、「応答」、および「部分的な」残差の性質ですが、ここではチラコレオの答えを受け入れます。
ラッセルピアス

私は見つけるbinnedplotRパッケージ内の関数アームは残差の非常に有用なプロットを提供します。それは、Gelman and Hill 2007の p.97-101でうまく説明されています。
共役

1
モデルの適合を確認する非常に簡単な方法の1つは、観測された比率と予測された比率のプロットです。ただし、ベルヌーイ回帰がある場合(つまり、すべての観測値にの独立変数の一意の組み合わせがある場合)、0と1の行が表示されるだけなので、これは機能しません。ni=1
確率論的

ええ-悲しいことに、私は通常ベルヌーイDVを使用しています。
ラッセルピアス

回答:


32

理解しやすい最も簡単な残差は、これらの合計を対数尤度の-2倍に2乗したときの逸脱残差です。最も単純な用語では、総偏差を最小化するような方法で既知のに対して関数を当てはめることでロジスティック回帰を理解できます。すべてのデータポイントの二乗偏差残差の。Xp=logit1(Xβ)X

各データポイントの(2乗)偏差は、予測確率 と実際の値の補数(1の差の対数に(-2倍)等しいコントロールの場合、ケースの場合は0)絶対条件で。log(1)がゼロであるため、ポイントの完全な適合(決して発生しない)はゼロの逸脱を与えます。非常に小さな値の対数の-2倍が大きいため、適合度の低い点には大きな残留偏差があります。logit1(Xβ)

ロジスティック回帰を行うことは、二乗偏差残差の合計が最小になるようなベータ値を見つけることに似ています。

これはプロットで説明できますが、アップロードする方法がわかりません。


1
登録画像:無料の画像ホスティングサイトの1つ(googleを検索)を使用して、そのサイトにプロットをアップロードし、ここにリンクします。

元の回答のエラーを修正しました。私は最初にp = logit(X beta)を書きました実際、予測確率は線形結合の逆ロジット、p = inv-logit(X beta)です。Rでは、これはp <-plogit(X beta)として計算され、p = exp(X beta)/(1 + exp(X * beta))です。
チラコレオ

1
どのRパッケージplogitからのものですか?ここで定義するのか、他の場所から取得するのかは明確ではありませんでした。
アミニムス

1
@Amyunimus plogitはR(統計)にあり、パッケージは必要ありません(少なくとも必要ありません)
russellpierce 14

7

ピアソン残差では、

ピアソン残差は、観測確率と推定確率の差を推定確率の二項標準偏差で割ったものです。したがって、残差を標準化します。大きなサンプルの場合、標準化された残差は正規分布を持っている必要があります。

メナード、スコット(2002)から。ロジスティック回帰分析の適用、第2版。カリフォルニア州サウザンドオークス:Sage Publications。シリーズ:社会科学における定量的応用、第106号、初版、1995年。4.4章を参照


8
これは、大きなサンプルについては完全に正しいとは限りません。むしろ、大きな二項セル数、または同じことである共変量の大量の複製が必要です。ピアソン残差は、であるすべての観測に対して正規分布からはほど遠いものです。n i < 5nini<5
確率

5

作業残差は、反復的に重み付けされた最小二乗法の最終反復における残差です。これは、モデルの実行の最後の反復と考えるときの残差を意味します。これにより、モデルの実行は反復的な演習であるという議論が生まれます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.