と残差逸脱の自由度を使用したロジスティック回帰係数のテスト


12

概要:標準正規分布ではなく、ロジスティック回帰係数のテストに分布(残留偏差に基づく自由度を伴う)の使用をサポートする統計理論はありますか?t


SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します(この質問の残りの部分ではと呼びます)、ただし「自由度」列、および分布を仮定した値も報告しますt1β^1/varβ^1zptz残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。2

ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることはt

  • zは「ほぼ」正規分布しています。
  • この近似は、サンプルサイズが小さい場合には不十分です。
  • それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできませんzt

さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。zttt

  1. 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか?zt
  2. そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか?t

より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか?

Rコード:

summary(glm(y ~ x, data=dat, family=binomial))

R出力:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SASコード:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS出力(編集/短縮):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1実際、PROC GLIMMIXの混合効果ロジスティック回帰モデルについてこれに最初に気づき、後にGLIMMIXが「バニラ」ロジスティック回帰でもこれを行うことを発見しました。

2以下に示す例では、900個の観測値がありますが、ここでの違いはおそらく実際的な違いをもたらさないと理解しています。それは本当に私のポイントではありません。これは、私がすぐに作成して900を選択した単なるデータです。これは、かなりの数だからです。ただし、サンプルサイズが小さい <30など)の実際の違いについては少し疑問に思います。n


PROC LOGISTICSASでは、スコアに基づいて通常のwaldタイプのテストを生成します。新しい関数(一般化の副産物)の変更を促したのはなぜでしょうか。z
アフィン14

1
SPSSは、同じ方法でロジスティック混合効果モデルをテストするようです:
リチャードボーダー

回答:


6

実際、ロジスティック回帰および/または他の一般化線形モデルの場合、zが実際に分布に従うことを示す統計理論はありますか?

私が知る限り、そのような理論は存在しません。特定のGLMファミリまたは他のファミリのこのようなアプローチをサポートするために、私は定期的に手でうねる議論を見て、時々シミュレーション実験を行います。シミュレーションは、手振りの議論よりも説得力があります。

そのような理論がない場合、少なくともこの方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりも良いことを示す論文がありますか?

見たことを覚えているわけではないが、それはあまり言っていない。

私自身の(限られた)小サンプルシミュレーションでは、ロジスティックの場合のt分布の推定は、正規の仮定よりもかなり悪い場合があります。

ここに画像の説明を入力してください

これは、たとえば、母集団パラメーターが両方ともゼロである15個の等間隔のx観測での通常のロジスティック回帰(混合効果ではない固定効果)のWald統計の10000シミュレーションの結果(QQプロット)です。赤い線はy = x線です。ご覧のとおり、それぞれの場合において、正規分布は、中央部の適切な範囲(5パーセンタイルから95パーセンタイル(1.6-1.7ish)まで)の非常に優れた近似値であり、その外側では検定統計量の実際の分布は通常よりも実質的に軽い尾。

したがって、ロジスティックの場合、このようなシミュレーションは結果がより明るい尾部にある傾向があることを示唆する傾向があるため、zではなくt-を使用するという議論はこれに基づいて成功する可能性は低いと思います重い尾ではなく、通常の側。

[ただし、注意するための警告としてのみ、私のシミュレーションを信用しないことをお勧めします-おそらく、IVやモデルに典型的な独自の状況をより代表する状況のために、独自のものを試してください(もちろん、シミュレーションする必要がありますnullの下で使用する分布を確認するために、nullが真である場合)。それらがどのようにあなたのために出てくるか聞いてみたいです。]


1
t

4

ここに、Glen_bが既に提示したものを少し拡張するために、いくつかの追加のシミュレーションを示します。

[11]N=10204080p=0.50.7310.8810.952

ztdf=N2z=0p=1QQsim

ptppHistSim

t


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.