オッズ比とは異なる指数ロジスティック回帰係数


10

私が理解しているように、ロジスティック回帰からの指数ベータ値は、目的の従属変数に対するその変数のオッズ比です。ただし、値は手動で計算されたオッズ比と一致しません。私のモデルは、他の指標の中でもとりわけ、保険を使用して発育不全(栄養失調の尺度)を予測しています。

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

これらの値が異なる理由は何ですか?回帰の他の要素を制御していますか?違いを説明できるようにしたいだけです。


2
追加の予測子をロジスティック回帰モデルに入れていますか?手動で計算されたオッズ比は、他の予測子を含めない場合にのみ、ロジスティック回帰から得られるオッズ比と一致します。
マクロ

それは私が考えたものですが、確認を求めていました。これは、回帰の結果が他の予測子の変動を考慮しているためですか?
マイク

はい、@マイク。モデルが正しく指定されていると仮定すると、他の予測子がすべて固定されている場合、モデルをオッズ比として解釈できます。
マクロ

@マクロ:回答としてのコメントを再言していただけませんか?
jrennie

回答:


22

その唯一の予測子をモデルに入れるだけの場合、予測子と応答の間のオッズ比は指数回帰係数と正確に等しくなります。この結果の派生はサイトに存在するとは思わないので、この機会に提供します。


バイナリ結果と単一バイナリ予測子考えます。XYX

Y=1Y=0X=1p11p10X=0p01p00

次に、間のオッズ比を計算する1つの方法は、Y iXiYi

OR=p11p00p01p10

条件付き確率の定義により、。比率では、を含む限界確率がキャンセルされ、条件付き確率に関してオッズ比を書き換えることができます。pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

ロジスティック回帰では、これらの確率を直接モデル化します。

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

したがって、これらの条件付き確率をモデルから直接計算できます。上記の式の最初の比率は次のとおりです。OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

そして2番目は:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

これを数式に代入すると、結果はになります。OR=e(β0+β1)eβ0=eβ1

注:他の予測子がある場合、それらをと呼びますモデルでは、指数回帰係数(同様の導出を使用)は実際にはZ1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

オッズ比でそのようにモデル内の他の予測変数の値を条件と、一般的に、ではないに等しいです

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

したがって、指数化された係数と観測されたオッズ比との間の不一致を観測していることは当然のことです。

注2:真の真のオッズ比の関係を導き出しましたが、単一のバイナリ予測子を使用した近似ロジスティック回帰は2行2列のエントリを正確に再現するため、サンプル量についても同じ関係が成り立つことに注意してくださいテーブル。つまり、フィットされた平均は、他のGLMと同様に、サンプルの平均と正確に一致します。したがって、上記で使用したロジックはすべて、真の値をサンプル量に置き換えて適用されます。 β


2
わあ、完全な説明を書いてくれてありがとう。
マイク、2012

@Macro「p値が0.05未満」と「95%CIに1が含まれない」がロジスティック回帰で一貫していないことがわかりました(SASを使用しました)。この現象はあなたの説明に関連していますか?
user67275

4

@Macro(+1)から本当に良い回答がありました。モデル(参照)なしで計算された単純な(限界)オッズ比と、多重ロジスティック回帰モデル()一般的に等しくない。ここで、関連する情報を少しでも提供できるかどうか、特にそれらが等しくなる場合と等しくならない場合について説明します。 exp(β)

OLS回帰の場合と同様に、ロジスティック回帰のベータ値は、共変量の1単位の変化に関連する応答分布を管理するパラメーターで、Ceteris paribusの変化を指定します。(ロジスティック回帰の場合、これは「成功」の確率のロジットの変化ですが、OLS回帰の場合、それは平均です。)つまり、他のすべての変化が等しい場合の変化です。指数化されたベータは、同様にCeteris paribusオッズ比です。したがって、最初の問題は、これが有意義である可能性があることを確認することです。具体的には、問題の共変量は、モデルの他の場所(たとえば、交互作用、または多項式の項)に存在してはなりません。(ここで私は含まれいる用語を参照していることに注意してくださいμモデルでは、しかし、真の関係が別の共変量のレベル間で異なるが、たとえば相互作用項が含まれていない場合にも問題があります。)からベータを累乗することによってオッズ比を計算することは意味があることを確認したらロジスティック回帰モデルの場合、モデルベースの限界オッズ比と限界オッズ比はいつ変わるのか、そしてどちらの場合にどちらを好むのかという質問をすることができます。

これらのORが異なるのは、モデルに含まれる他の共変量が問題の共変量と直交しないためです。たとえば、共変量間の単純な相関関係を実行することで確認できます(p値が何であっても問題ありません。または、共変量が連続ではなく場合、ポイントは単に)。一方、他のすべての共変量が問題の共変量と直交している場合、は限界ORに等しくなります。 R 0 のexp β 0/1r0exp(β)

限界ORとモデルベースのORが異なる場合は、モデルベースのバージョンを使用/解釈する必要があります。その理由は、マージナルORでは共変量間の交絡が考慮されないのに対し、モデルではそうなるためです。この現象はSimpsonのParadoxに関連しているため、参照することをお勧めします(SEPにも適切なエントリがあり、CVについての議論があります:Basic-simpson's-paradox、およびCVのタグで検索できます)。単純化と実用化のために、モデルベースのORのみを使用することをお勧めします。これは、明らかに望ましいか、または同じであるためです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.