ロジスティック回帰とロジット線形回帰によって推定される係数はいつ異なりますか?


11

連続比率をモデル化する場合(例:調査区画での比例植生被覆、または活動に従事する時間の比率)、ロジスティック回帰は不適切であると見なされます(例:Warton&Hui(2011)Arcsine is asinine:the analysis of ratios in ecology)。むしろ、比率をロジット変換した後のOLS回帰、またはおそらくベータ回帰がより適切です。

R lmとを使用すると、ロジット線形回帰とロジスティック回帰の係数推定値はどのような条件下で異なりますglmか?

次のシミュレートされたデータセットを取り上げます。ここでpは、それが生データ(つまり、表すのではなく、連続比率)であると想定できます。nsuccessesntrials

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

ここに画像の説明を入力してください

ロジット線形モデルを当てはめると、以下が得られます。

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

ロジスティック回帰の結果:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

ロジスティック回帰係数の推定値は、ロジット線形モデルの推定値に対して常に不偏ですか?


1
理論上の違いに注意してください。比率に二項モデルを適用すると、各比率の背後にある試行は独立している、つまり比率の背後にある試行0.1は「成功」し、1つの成功をもたらす10回の独立した試行があると想定します。線形モデルの場合、0.1は単に値であり、任意の尺度です。
ttnphns 2015年

1
OPによって行われる方法でプロポーションに二項モデルを適用することがどれほど意味があるかについては、少し疑問があります。結局のところ、family=binomial従属変数が比率ではなく二項カウントを表すことを意味します。そして、glmそれ0.1が「100のうちの10」ではなく「10のうちの1」のようにどうしてわかるのでしょうか。比率自体には違いはありませんが、これは標準誤差の計算方法に大きな影響を与えます。
Wolfgang

1
@Wolfgang-私は、この種の連続的な比率をロジスティック回帰でモデル化することは不適切であることを理解しています(そして私の投稿で言及しています)。係数のポイント推定値が異なる場合、いつ、どのように異なるかについて、私はもっと興味を持っていました。
jbaums 2015年

2
@Wolfgang、その通りですが、実装によって異なります。一部のプログラムでは、ベースの代わりにDVおよび1として比率を入力できますが、データセットは実際のベースによって重み付けされます。カウントではなく、比率を分析するように見えます。
ttnphns 2015年

1
@ttnphns同様に、RでDVとして比率を入力し、weightsarg に試行回数を含むベクトルを指定できます(これは、私が投稿で試みていたものではなく、意図的にデータを誤って分析したためです)。
jbaums 2015年

回答:


5

おそらく、これは「逆」の方法で答えることができます-つまり、いつ同じですか?

ここで、ロジスティック回帰で使用されるIRLSアルゴリズムは、ここでいくつかの洞察を提供します。収束時には、モデル係数を次のように表すことができます。

β^logistic=(XTWX)1XTWz

ここで、はi番目の項が対角重み行列であり、はi番目の要素を持つ疑似応答です。は、ロジスティック回帰が量の「ロジットタイプ」の重み付き最小二乗に非常に似ていることに注意してください。すべての関係は、ロジスティック回帰で暗黙的であることに注意してください(例えばに依存に依存)。WWii=nipi(1pi)z VRZI-X T I β=W - 1 I I Zβのzzi=xiTβ^logistic+yinipinipi(1pi)var(zixiTβ^)=Wii1zβz

したがって、違いは主に、重み付けされた最小二乗(ロジスティック)と重み付けされていない最小二乗(ロジットのol)の使用にあることをお勧めします。呼び出しでロジットに(は「イベント」の数、は「試行」の数)で重み付けした場合、次のようになります。より類似した結果。y 1 y / n y nlog(y)log(ny)y(1y/n)ynlm ()


印象的です。与えられたシミュレートされたデータを使用して、Rコードで最後の文を表示していただけませんか?ありがとう!
JellicleCat 2015年

2

私が間違っている場合は、遠慮なく指摘してください。

まず、私は、2番目の適合でglmは、間違った方法で呼び出すと言っています。によるロジスティック回帰を適合させるにはglm、応答は(バイナリ)カテゴリ変数でなければなりませんがp、数値変数を使用します!私はwarning、ユーザーに間違いを知らせるには優しすぎます...

そして、ご想像のとおり、COINCIDENCEだけで2つの近似によって係数の同様の推定値を取得できます。あなたが交換した場合logit.p <- a + b*x + rnorm(1000, 0, 0.2)logit.p <- a + b*x + rnorm(1000, 0, 0.7)、すなわち、から誤差項の分散を変更0.2する0.7第二フィットは(が、2つのフィットの結果は、大幅に異なるものになりますglm)、すべてでは意味があり...

(バイナリ)分類にはロジスティック回帰が使用されるため、上記のように、カテゴリカル応答が必要です。たとえば、応答の観測値は、データのような一連の「確率(頻度)」ではなく、一連の「成功」または「失敗」である必要があります。特定のカテゴリデータセットでは、系列ではなく、「response = success」または「response = failure」の全体的な頻度を1つだけ計算できます。生成したデータにはカテゴリ変数がまったくないため、ロジスティック回帰を適用することはできません。これで、外観は似ていますが、ロジット線形回帰(いわゆる)は、変換された応答(sqrまたはsqrt変換と同様)を使用した通常の線形回帰問題(つまり、応答は数値変数)であることがわかります。

通常、線形回帰は、通常の最小二乗法(OLS)で近似され、回帰問題の二乗損失を最小限に抑えます。ロジスティック回帰は、最尤推定(MLE)を介して適合され、分類問題の対数損失を最小限に抑えます。以下は、損失関数の参照です。損失関数、Deva Ramanan。 最初の例ではp、応答と見なし、OLSを介して通常の線形回帰モデルを近似します。2番目の例でRは、ロジスティック回帰モデルをfamily=binomialR近似しているので、MLEでモデルを近似しています。ご覧のように、最初のモデルでは、線形回帰に適合するOLSの古典的な出力であるt検定とF検定が得られます。2番目のモデルでは、係数の有意性検定はzt、これはロジスティック回帰のMLEフィットの古典的な出力です。


いい質問(+1)といい答え(+1)。新しいことを学びました。
Aleksandr Blekh 2015年

1
同意します。ただし、これlogistic regression is a CLASSIFICATION problemは、適切に分類できる限り価値があるという意味で誤って解釈される可能性があります。理論的には「最適」なモデルであり、確率をどのようにモデル化するかによって、モデルがそれほど良くないモデルよりも悪いものに分類される場合があるため、どちらが間違っていると考えるでしょう。
ttnphns 2015年

@ttnphnsコメントありがとうございます!応答がカテゴリカルである場合、これを分類問題と呼ぶのは慣習だと思います。モデルがうまく機能するかどうかは重要ですが、おそらく命名には影響しません。
JellicleCat 2015年

@JellicleCatに感謝-このタイプの比率データはロジスティック回帰に適していないことは承知していますが、係数の推定値が、ロジット変換された比率を使用するOLSのそれとは異なる状況に興味がありました。あなたの例をありがとう-分散が大きくなると、係数推定値が発散することは明らかです。
jbaums 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.