概要:標準正規分布ではなく、ロジスティック回帰係数のテストに分布(残留偏差に基づく自由度を伴う)の使用をサポートする統計理論はありますか?
SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します(この質問の残りの部分ではと呼びます)、ただし「自由度」列、および分布を仮定した値も報告します残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。
ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることは
- は「ほぼ」正規分布しています。
- この近似は、サンプルサイズが小さい場合には不十分です。
- それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできません。
さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。
- 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか?
- そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか?
より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか?
Rコード:
summary(glm(y ~ x, data=dat, family=binomial))
R出力:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
SASコード:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
SAS出力(編集/短縮):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
実際、PROC GLIMMIXの混合効果ロジスティック回帰モデルについてこれに最初に気づき、後にGLIMMIXが「バニラ」ロジスティック回帰でもこれを行うことを発見しました。
以下に示す例では、900個の観測値がありますが、ここでの違いはおそらく実際的な違いをもたらさないと理解しています。それは本当に私のポイントではありません。これは、私がすぐに作成して900を選択した単なるデータです。これは、かなりの数だからです。ただし、サンプルサイズが小さい <30など)の実際の違いについては少し疑問に思います。
PROC LOGISTIC
SASでは、スコアに基づいて通常のwaldタイプのテストを生成します。新しい関数(一般化の副産物)の変更を促したのはなぜでしょうか。