GLM Rの残差とヌル逸脱の解釈


47

RのGLMのヌルと残差の逸脱をどのように解釈しますか?たとえば、AICは小さいほど良いと言います。デビアンスについても同様の迅速な解釈はありますか?

ヌル偏差:1077自由度で1146.1残留偏差:1099自由度で4589.4 AIC:11089

回答:


74

LL =対数尤度とする

以下は、summary(glm.fit)の出力から見たものの簡単な要約です。

Null Deviance = 2(LL(飽和モデル)-LL(Nullモデル))on df = df_Sat-df_Null

残差= 2(LL(飽和モデル)-LL(提案モデル))df = df_Sat-df_Proposed

飽和モデルは、各データ点を前提としたモデルは、独自のパラメータを持っている(あなたは推定するパラメータn個を持っていることを意味します。)

ヌルモデルを前提として正確な「反対」、という点であるがあなただけの1つのパラメータを推定意味し、すべてのデータポイントのための一つのパラメータを前提としています。

提案モデルは、あなたがp + 1つのパラメータを持っているので、あなたは、p個のパラメータ+インターセプト用語を使用してデータポイントを説明することができ前提としています。

あなたの場合はNullを逸脱が本当に小さいです、それはヌルモデルはかなりよくデータを説明することを意味します。同様に、あなたの残留逸脱

本当に小さいとはどういう意味ですか?モデルが「良好」である場合、逸脱度は、(df_sat-df_model)自由度を持つ約Chi ^ 2です。

NullモデルとProposedモデルを比較したい場合は、

(ヌル逸脱-残差逸脱)提案されたdfを持つ約Chi ^ 2 -dfヌル =(n-(p + 1))-(n-1)= p

Rから直接得た結果ですか?一般に、Nullで報告される自由度は、Residualで報告される自由度よりも常に高いことを確認する必要があるため、少し奇妙に見えます。これは、Null Deviance df = Saturated df-Null df = n-1 Residual Deviance df = Saturated df-Proposed df = n-(p + 1)


はい、これは非常に便利な@TeresaStatの書き込みです。ありがとう。これはどれくらい堅牢ですか?の代わりに多項モデルについて話している場合、定義は変わりますGLMか?
Hack-R 14年

@テレサ:はい、これらの結果はRからのものです。なぜこれが起こるのですか?ここでモデルに問題はありますか?
アンジャリ14

@ Hack-R:このような遅い応答で申し訳ありませんが、私はStackexchangeの初心者です。多項モデルの場合、Rではglm関数を使用せず、出力は異なります。比例オッズモデルまたは順序回帰、mlogit関数のいずれかを調べる必要があります。多項式の文法について少し読むのは価値がありますが、仮定は少し異なります。休憩中にアクセスできる場合は、これをいくつかの情報で更新します。
TeresaStat 14

@Anjali、私はなぜあなたがRでそのような結果を得るのかよくわかりません。あなたのデータ/結果を見ずに知るのは難しいです。一般に、残留自由度がヌルdfよりも高くなる理由はわかりません。いくつのパラメーターを推定しましたか?
TeresaStat 14

1
@ user4050一般的なモデリングの目標は、最小限のパラメーターを使用して応答について最も多く説明することと考えることができます。使用するパラメーターの数を把握するには、もう1つのパラメーターを追加する利点を検討する必要があります。余分なパラメーターが小さいモデルから多くのことを説明する(高い逸脱を生み出す)場合、追加のパラメーターが必要です。何が多くを定量化するためには、統計理論が必要です。理論から、逸脱はカイ2乗であり、自由度は2つのモデル間のパラメーターの差に等しいことがわかります。それは明確ですか?
TeresaStat

13

ヌルの逸脱は、インターセプト以外のモデルによって応答がどれだけうまく予測されるかを示します。

残差偏差は、予測子が含まれている場合にモデルによって応答がどの程度適切に予測されるかを示します。あなたの例から、22の予測変数が追加されると、偏差が3443.3増加することがわかります(注:自由度=観測数-予測数)。この逸脱の増加は、適合性が著しく欠如していることの証拠です。

また、残差偏差を使用して、帰無仮説が真であるかどうかをテストすることもできます(つまり、ロジスティック回帰モデルがデータに適切に適合します)。これは、偏差が特定の自由度のカイ2乗値によって与えられるため可能です。有意性をテストするために、Rで次の式を使用して関連するp値を見つけることができます。

p-value = 1 - pchisq(deviance, degrees of freedom)

上記の残差偏差とDFの値を使用すると、帰無仮説をサポートする証拠が大幅に不足していることを示すほぼゼロのp値が得られます。

> 1 - pchisq(4589.4, 1099)
[1] 0

2
逸脱と予測変数の数(pchisqなし)に基づいて、良い/悪い適合のカットオフがどのようにわかるのですか?残存偏差> NULL偏差の場合だけですか、それとも範囲/比率がありますか?
ハックR 14

3
あなたの答えは間違ってはいませんが、誤解されやすいです。実際、誤解されています(こちらを参照)。それに照らして、あなたのコードに暗黙的な違いを明確にできますか?
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.