オッズ比のメタ分析は本質的に絶望的ですか?


12

最近の論文でノートンら(2018)[1]

オッズ比の推定値をもたらす統計モデルの説明変数が異なる場合、各モデルには異なる任意のスケーリング係数があるため、同じスタディの異なるオッズ比は比較できません。異なるサンプルと異なるモデル仕様には異なる任意のスケーリング係数があるため、ある研究のオッズ比の大きさを別の研究のオッズ比の大きさと比較することもできません。さらに、複数の研究における特定の関連性のオッズ比の大きさをメタ分析で合成することはできません。

小さなシミュレーションがこれを示しています(Rコードは質問の下部にあります)。真のモデルは次のようになります: さらに、上記のモデルによって生成された同じデータが、ロジスティック回帰を使用して4人の異なる研究者によって分析されることを想像してください。研究者1には共変量としてのみが含まれ、研究者2にはと両方が含まれます。4人の研究者ののオッズ比の平均シミュレーション推定値は次のとおりです。

logty=1+ログ2バツ1+ログ2.5バツ2+ログ3バツ3+0バツ4
バツ1バツ1バツ2バツ1

res_1    res_2    res_3    res_4 
1.679768 1.776200 2.002157 2.004077

研究者3と4だけが約正しいオッズ比を得るのに対して、研究者1と2はそうではないことは明らかです。これは線形回帰では発生せず、同様のシミュレーションで簡単に表示できます(ここでは示していません)。この問題はよく知られているように思えますが、この結果は私にとって非常に驚くべきものだったことを告白しなければなりません。ヘルナンら(2011)は、これをバイアスではなく「数学的な奇妙」と呼んでいます。2[2][3]

私の質問:

  1. オッズ比が基本的に研究およびモデル間で比較できない場合、バイナリの結果について異なる研究の結果をどのように組み合わせることができますか?
  2. 何が無数のメタアナリシスについて語ったことができなかった各研究は、おそらく共変量の異なるセットのために調整異なる研究からのオッズ比を組み合わせ?彼らは本質的に役に立たないのですか?

参照資料

[1]:Norton EC、Dowd BE、Maciejewski ML(2018):オッズ比-現在のベストプラクティスと使用。JAMA 320(1):84-85。

[2]:ノートンEC、ダウドBE(2017):ログオッズとロジットモデルの解釈。Health Serv Res。53(2):859-878。

[3]:HernánMA、Clayton D、Keiding N(2011):シンプソンのパラドックスが解明されました。Int Jエピデミオール40:780-785。

開示

質問(Rコードを含む)は、ユーザーtimdisherdatamethodsで提示した質問の修正版です。

Rコード

set.seed(142857)

n_sims <- 1000 # number of simulations

out <- data.frame(
  treat_1 = rep(NA, n_sims)
  , treat_2 = rep(NA, n_sims)
  , treat_3 = rep(NA, n_sims)
  , treat_4 = rep(NA, n_sims)
)

n <- 1000 # number of observations in each simulation

coef_sim <- "x1" # Coefficient of interest

# Coefficients (log-odds)

b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0

for(i in 1:n_sims){

  x1 <- rbinom(n, 1, 0.5)
  x2 <- rnorm(n)
  x3 <- rnorm(n) 
  x4 <- rnorm(n) 

  z <-  b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

  pr <- 1/(1 + exp(-z))  

  y <-  rbinom(n, 1, pr)

  df <-  data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
  model1 <- glm(y ~ x1, data = df, family = "binomial")
  model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
  model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
  model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")


  out$treat_1[i] <- model1$coefficients[coef_sim]
  out$treat_2[i] <- model2$coefficients[coef_sim]
  out$treat_3[i] <- model3$coefficients[coef_sim]
  out$treat_4[i] <- model4$coefficients[coef_sim]

}

# Coefficients

colMeans(out)
exp(colMeans(out)) # Odds ratios

回答:


11

ロジスティック回帰モデルから導き出すことのできる多くの代替効果がありますが、これらは同じ問題を抱えていません。最も簡単な方法の1つは、変数の平均的な限界効果です。次のロジスティック回帰モデルを想定します。

ln[p1p]=バツβ+γd

バツnkβkdγ

d

1n=1n[1+eバツβ+γ11+eバツβ1]

この効果は、他の予測因子と同じ値を持つ人の治療群と対照群間の結果の平均確率差になります(Gelman&Hill、2007、p。101を参照)。

OPの例を指定すると、対応するR構文は次のようになります。

dydx_bin <- function(fit, coef) {
  mod.mat <- model.matrix(fit) # Obtain model matrix
  coefs <- coef(fit)
  oth_coefs <- coefs[!(names(coefs) == coef)] # Coefs bar focal predictor
  # Get model matrix excluding focal predictor
  X_nb <- as.matrix(mod.mat[, names(oth_coefs)])
  # Predictions for all data ignoring focal predictor
  Xb_nb <- X_nb %*% oth_coefs
  mean(plogis(Xb_nb + coefs[coef]) - plogis(Xb_nb))
}

対象の予測変数が他の予測変数と無関係である限り、OPの構文を変更して、モデル内の変数の影響を受けないことを示しました。

結果データフレームを次のように変更しました。

out <- data.frame(
  treat_1 = rep(NA, n_sims), treat_2 = rep(NA, n_sims),
  treat_3 = rep(NA, n_sims), treat_4 = rep(NA, n_sims),
  treat_11 = rep(NA, n_sims), treat_21 = rep(NA, n_sims),
  treat_31 = rep(NA, n_sims), treat_41 = rep(NA, n_sims)
)

そして、シミュレーション内で、計算された平均確率差を保存しました。

out$treat_11[i] <- dydx_bin(model1, coef_sim)
out$treat_21[i] <- dydx_bin(model2, coef_sim)
out$treat_31[i] <- dydx_bin(model3, coef_sim)
out$treat_41[i] <- dydx_bin(model4, coef_sim)

そして、新しい結果:

colMeans(out)[5:8]
 treat_11  treat_21  treat_31  treat_41 
0.1019574 0.1018248 0.1018544 0.1018642 

推定効果は、モデルの仕様に関係なく一貫していました。共変量を追加すると、線形回帰モデルと同様に効率が向上します。

apply(out[, 5:8], 2, sd)
  treat_11   treat_21   treat_31   treat_41 
0.02896480 0.02722519 0.02492078 0.02493236 

2つのグループ間の平均確率比など、OPが計算できる追加の効果があります。上記で計算された平均確率差は、RのmarginsパッケージおよびStataのmarginsコマンドから入手できます。平均確率比は、Stataでのみ使用可能です。

メタ分析の結果を信頼することに関する他の質問に。1つは、効果の方向が役に立たないようにすることです。オッズ比の問題は、係数の符号に影響しません。したがって、多くの研究のオッズ比が1を超える場合、この特定の問題のためにこの効果を疑う理由はありません。

正確な見積もりについては、それを信じる理由はありません。良い点は、成分研究がランダム化比較試験である場合、オッズ比は控えめな推定値であり、実際の結果はさらに大きくなることです。これは、示された効果OPがオッズ比を1に縮小するためです。そのため、大半の研究のオッズ比が1を超えており、メタ分析がこの方向を指している場合、関連するすべての共変量が調整されると、実際のORはさらに大きくなります。したがって、これらのメタ分析は完全に役に立たないわけではありません。

しかし、メタ分析では他の効果推定値を使用したいです。平均確率差は1つのアプローチであり、他にもあります。


ゲルマン、A。&ヒル、J。(2007)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局。


1
@COOLSerdashありがとう。ここには、まだまだ探索すべきことがたくさんあります。特に元の関係に不均一分散が存在する場合、オッズ比が二分された連続変数に由来する場合、さらに興味深いものになります。この質問への参照アヒムZeileisの答え- stats.stackexchange.com/questions/370876/...
Heteroskedasticジム

リンクをありがとう。基礎となる潜在的な連続変数を使用したロジスティックモデルの導出は、私にとって新しいことであると認めなければなりません。私は生物統計学から来ていますが、この分野の独創的な情報源はこれらの問題に言及していないようです(たとえば、Lemshow&Hosmerの本「ロジスティック回帰の適用」)。明日、できる限り早く賞金を授与します。
COOLSerdash

ロジスティックエラーを仮定する場合、基になる連続変数の下での派生は奇妙だと思います。通常のエラーを想定している場合、CLTのおかげでより正当化できます。そのため、計量経済学で多く使用されているプロビット回帰では、これが一般的な派生です。しかし、連続変数を二分する場合は、エラーの下での導出が非常に役立ちます。さらに、この導出により、一般的にモデルをよりよく探索し、特定の癖を発見することができます。そして、回顧的な賞金に感謝します。
ヘテロスケダスティクスジム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.