ロジスティック回帰のあらゆる種類の尺度の主な問題は、既知のノイズ値を持つモデルを扱っていることだと思っていただろう。これは、ノイズレベルが通常不明として扱われる標準の線形回帰とは異なります。次のようにglm確率密度関数を書くことができます。R2
f(yi|μi,ϕ)=exp(yib(μi)−c(μi)ϕ+d(yi,ϕ))
ここで、は既知の関数であり、逆リンク関数。通常のGLM逸脱残差を次のように定義するとb(.), c(.), d(.;.)μi=g−1(xTiβ)g−1(.)
d2i=2ϕ(log[f(yi|μi=yi,ϕ)]−log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)−yib(μ^i)−c(yi)+c(μ^i)]
我々が持っている(尤度比カイ二乗、介して)χ2=1ϕ∑Ni=1d2i
E(∑i=1Nd2i)=E(ϕχ2)≈(N−p)ϕ
どこの次元で。ロジスティック回帰の場合、既知のがあります。したがって、これを使用して、「許容可能」または「合理的」な一定レベルの残差を決定できます。これは通常、OLS回帰では実行できません(ノイズに関する事前情報がない場合)。つまり、各逸脱残差は約になると予想されます。多すぎると、重要な効果がモデルから欠落している可能性があります(適合不足)。多すぎると、モデルに冗長またはスプリアス効果が存在する可能性があります(過剰適合)。(これらはモデルの仕様不適合を意味する場合もあります)。pβϕ=11d2i≫1d2i≪1
これは、疑似の問題は、項変動のレベルが予測可能であることを考慮に入れていないことを意味します(2項誤差構造が疑問視されていない場合)。したがってNagelkerkeの範囲であるにも関わらずに、それはまだ適切にスケーリングされていません。さらに、IDリンクと通常のエラーで「GLM」を適合させたときに通常のと等しくない場合、これらが疑似と呼ばれる理由がわかりません。たとえば、正規誤差の等価cox-snell R-2乗(分散のREML推定を使用)は、次の式で与えられます。R201R2R2
R2CS=1−exp(−N−pN⋅R2OLS1−R2OLS)
これは確かに奇妙に見えます。
より良い「適合度」の尺度は、逸脱残差の合計だと思います。これは、主に目標を設定しているためです。χ2