ロジスティック回帰のWald検定


55

私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。X

テストでは、係数の値を標準誤差で除算します。σ

私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。X/σ



2
ただし、この方法の答えはより発展しているので、おそらく逆の場合もあります。
Firebug

回答:


86

ロジスティック回帰(およびGLM)の係数と切片の推定値は、最尤推定法(MLE)を介して検出されます。これらの推定値は、パラメーター上のなど)で示されます。対象のパラメータは示され、係数が0と異なるかどうかをテストするため、これは通常0です。MLEの漸近理論から、との差は平均0でほぼ正規分布することがわかります(詳細は、Larry WassermanのAll of statisticsのような数学統計の本で見つけることができます) 。標準エラーは他の何物でもないことを思い出してください θ0 θ θ0σW= β -β 0θ^θ0θ^θ0統計の標準偏差(SokalとRohlfは、Biometry:「統計は多くの計算または推定された統計量のいずれかです」(例えば、平均、中央値、標準偏差、相関係数、回帰係数など)。)平均0と標準偏差正規分布をその標準偏差で除算すると、平均0および標準偏差1で標準正規分布が得られます。Wald統計は(例えばWasserman(2006):All of Statistics、153ページ、 214-215): または σW2=β-β02

W=(β^β0)se^(β^)N(0,1)
χ21χ22
W2=(β^β0)2Var^(β^)χ12
2番目の形式は、標準正規分布の2乗が -1自由度の分布(2つの標準正規分布の2乗の合計)であるという事実から生じます。であろう)2自由度などと-distribution。χ12χ22

対象のパラメーターは通常0(つまり)であるため、Wald統計は これはあなたが説明したものです:係数の推定値を標準誤差で割ったものですβ0=0

W=β^se^(β^)N(0,1)

はいつ、値はいつ使用されますか?zt

値または値の選択は、係数の標準誤差の計算方法によって異なります。Wald統計は標準正規分布として漸近的に分布するため、スコアを使用して値を計算できます。係数に加えて、残差分散も推定する必要がある場合、値の代わりに値が使用されます。通常の最小二乗(OLS、正規線形回帰)では、係数の分散共分散行列はここで、ztzptzVar[β^|X]=σ2(XX)1σ2は残差の分散(未知であり、データから推定する必要があります)であり、は設計行列です。OLSでは、係数の標準誤差は、分散共分散行列の対角要素の平方根です。わからないため、推定値に置き換える必要があります。したがって、。これがポイントです。係数の標準誤差を計算するには残差の分散を推定する必要があるため、値と分布を使用する必要がありますXσ2σ^2=s2 TTse^(βj^)=s2(XX)jj1tt

ロジスティック(およびポアソン)回帰では、残差の分散は平均に関連しています。場合、平均値は、分散であるに関連しているので、分散と平均値。ロジスティックおよびポアソン回帰ではガウス誤差を伴う回帰ではなく、予想される分散がわかっているため、個別に推定する必要はありません。分散パラメーターは、予想される分散よりも大きいか小さいかを示します。場合はこれは一方で、我々は、分散の予想額を観察意味、我々が期待分散(underdispersionと呼ばれる)と未満持っていることを意味E Y = N p個のヴァーY = N P 1 - P φ φ = 1 φ < 1 φ > 1つのZ TのPYBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1は、予想を超える余分な分散があることを意味します(過剰分散と呼ばれます)。ロジスティックおよびポアソン回帰の分散パラメーターは1に固定されています。これは、スコアを使用できることを意味します。分散パラメータ。通常の線形回帰などの他の回帰タイプでは、残差分散を推定する必要があるため、値の計算には値が使用されます。では、次の2つの例を見てください。ztpR

ロジスティック回帰

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

分散パラメーターは1に固定されているため、値が得られることに注意してください。z


通常の線形回帰(OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

ここでは、残差分散(「標準残差」と表示)を推定する必要があるため、値の代わりに値を使用します。もちろん、大規模なサンプルでは、分布は正規分布に近似し、差は関係ありません。z ttzt

関連する別の投稿はこちらにあります


1
私のすべての質問に答えてくれるこの素敵な投稿に感謝します。
-user695652

1
したがって、実際には、あなたの優れた答えの最初の部分に関して:何らかの理由でオッズ比とWald統計を出力として持っている場合、これらから標準誤差を計算することができます:SE =(1 / Wald- statistic)* ln(OR)これは正しいですか?ありがとう!
サンダーW.ファンデルラン

1
@ SanderW.vanderLaanコメントありがとうございます。はい、それは正しいと思います。ロジスティック回帰を実行すると、Wald統計がz値になります。
COOLSerdash

2
このような素晴らしい答え!!。修正の提案がいくつかあります。個人的には、この答えはパンチリストと詳細を混同していると感じています。線形回帰が残差の分散を使用する方法の詳細を別のグラフに入れます。
ハイタオドゥ

1
また、分散パラメーターとRコードへの接続については、別のセクションまたは分離線を開いて話をすることができます。
ハイタオドゥ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.