私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。
テストでは、係数の値を標準誤差で除算します。
私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。
私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。
テストでは、係数の値を標準誤差で除算します。
私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。
回答:
ロジスティック回帰(およびGLM)の係数と切片の推定値は、最尤推定法(MLE)を介して検出されます。これらの推定値は、パラメーター上のなど)で示されます。対象のパラメータは示され、係数が0と異なるかどうかをテストするため、これは通常0です。MLEの漸近理論から、との差は平均0でほぼ正規分布することがわかります(詳細は、Larry WassermanのAll of statisticsのような数学統計の本で見つけることができます) 。標準エラーは他の何物でもないことを思い出してください θ0 θ θ0σW=( β -β 0)統計の標準偏差(SokalとRohlfは、Biometry:「統計は多くの計算または推定された統計量のいずれかです」(例えば、平均、中央値、標準偏差、相関係数、回帰係数など)。)平均0と標準偏差正規分布をその標準偏差で除算すると、平均0および標準偏差1で標準正規分布が得られます。Wald統計は(例えばWasserman(2006):All of Statistics、153ページ、 214-215): または W2=(β-β0)2
対象のパラメーターは通常0(つまり)であるため、Wald統計は これはあなたが説明したものです:係数の推定値を標準誤差で割ったものです。
はいつ、値はいつ使用されますか?
値または値の選択は、係数の標準誤差の計算方法によって異なります。Wald統計は標準正規分布として漸近的に分布するため、スコアを使用して値を計算できます。係数に加えて、残差分散も推定する必要がある場合、値の代わりに値が使用されます。通常の最小二乗(OLS、正規線形回帰)では、係数の分散共分散行列はここで、は残差の分散(未知であり、データから推定する必要があります)であり、は設計行列です。OLSでは、係数の標準誤差は、分散共分散行列の対角要素の平方根です。わからないため、推定値に置き換える必要があります。したがって、。これがポイントです。係数の標準誤差を計算するには残差の分散を推定する必要があるため、値と分布を使用する必要があります。 TT
ロジスティック(およびポアソン)回帰では、残差の分散は平均に関連しています。場合、平均値は、分散であるに関連しているので、分散と平均値。ロジスティックおよびポアソン回帰ではガウス誤差を伴う回帰ではなく、予想される分散がわかっているため、個別に推定する必要はありません。分散パラメーターは、予想される分散よりも大きいか小さいかを示します。場合はこれは一方で、我々は、分散の予想額を観察意味、我々が期待分散(underdispersionと呼ばれる)と未満持っていることを意味E (Y )= N p個のヴァー(Y )= N P (1 - P )φ φ = 1 φ < 1 φ > 1つのZ TのPは、予想を超える余分な分散があることを意味します(過剰分散と呼ばれます)。ロジスティックおよびポアソン回帰の分散パラメーターは1に固定されています。これは、スコアを使用できることを意味します。分散パラメータ。通常の線形回帰などの他の回帰タイプでは、残差分散を推定する必要があるため、値の計算には値が使用されます。では、次の2つの例を見てください。R
ロジスティック回帰
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
分散パラメーターは1に固定されているため、値が得られることに注意してください。
通常の線形回帰(OLS)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
ここでは、残差分散(「標準残差」と表示)を推定する必要があるため、値の代わりに値を使用します。もちろん、大規模なサンプルでは、分布は正規分布に近似し、差は関係ありません。z t
関連する別の投稿はこちらにあります。