ロジスティック回帰からオッズ比の信頼区間を作成するさまざまな方法


12

ロジスティック回帰で得られた係数からオッズ比の95%信頼区間を構築する方法を研究しています。したがって、ロジスティック回帰モデルを検討すると、

log(p1p)=α+βx

制御グループではx = 0、ケースグループではx = 1などです。x=0x=1

\ betaの 95%CIを構築するのが最も簡単な方法であることをすでに読んだのでβ、指数関数を適用しました。つまり、

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

私の質問は:

  1. この手順を正当化する理論的な理由は何ですか?\ mbox {odds ratio} = \ exp \ {\ beta \}を知ってodds ratio=exp{β}おり、最尤推定量は不変です。ただし、これらの要素間の関係はわかりません。

  2. デルタ方式は、前の手順と同じ95%信頼区間を生成する必要がありますか?デルタ方式を使用して、

    exp{β^}˙N(β, exp{β}2Var(β^))

    次に、

    exp{β^}±1.96×exp{β}2Var(β^)

    そうでない場合、どれが最良の手順ですか?


1
パラメータ値または十分なサイズのトレーニングデータがある場合、CIのブートストラップも好きです。
EngrStudent-モニカの復活

2
これを行うためのより良い方法があります。詳細については、stats.stackexchange.com / questions / 5304 / ...を参照してください
mdewey

回答:


7
  1. この手順の正当化は、のMLEの漸近正規性であり、中央極限定理を含む引数の結果です。β

  2. デルタ法は、MLE周りの関数の線形(つまり、1次のテイラー)展開から得られます。その後、MLEの漸近的な正常性と偏りのないことを訴えます。

漸近的には両方が同じ答えを与えます。しかし、実際には、より普通に見えるものを好むでしょう。この例では、後者の方が対称性が低い可能性が高いため、前者を優先します。


3

ISLの例の信頼区間法の比較

Tibshirani、James、Hastieによる書籍「Introduction to Statistical Learning」は、賃金データの多項式ロジスティック回帰次数4の信頼区間のページ267の例を示しています。本を引用する:

次数4の多項式でロジスティック回帰を使用して、バイナリイベントのをモデル化します。250,000ドルを超える賃金の適合した事後確率は、推定95%信頼区間とともに青色で表示されます。wage>250

以下は、このような間隔を構築する2つの方法の簡単な要約と、それらを最初から実装する方法に関するコメントです。

Wald /エンドポイント変換間隔

  • 線形結合の信頼区間の上限と下限を計算します(Wald CIを使用)xTβ
  • 単調変換をエンドポイントして、確率を取得します。F(xTβ)

ための単調変換であるX T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

具体的には、これはを計算し、結果にロジット変換を適用して下限と上限を取得することを意味します。βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

標準誤差の計算

Maximum Likelihood理論は、の近似分散が回帰係数の共分散行列を使用して計算できることを示しています。ΣxTβΣ

Var(xTβ)=xTΣx

設計行列と行列を次のように定義しますXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

ここで、は番目の観測の番目の変数の値であり、 は観測予測確率を表します。xi,jjiπ^ii

共分散行列は次のようになります: および標準誤差はΣ=(XTVX)1SE(xTβ)=Var(xTβ)

予測確率の95%信頼区間は、次のようにプロットできます。

ここに画像の説明を入力してください


デルタ法の信頼区間

アプローチは、関数線形近似の分散を計算し、これを使用して大きなサンプル信頼区間を構築することです。F

Var[F(xTβ^)]FT Σ F

ここで、は勾配で、は推定共分散行列です。1つの次元で次のことに注意してください。 Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

ここで、はの導関数です。これは多変量の場合に一般化されますfF

Var[F(xTβ^)]fT xT Σ x f

私たちの場合、Fはロジスティック関数(を表します)で、その導関数はπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

これで、上記で計算した分散を使用して信頼区間を構築できます。

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

多変量の場合のベクトル形式

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • は単一のデータポイント、つまり設計行列単一行を表すことに注意してください。xRp+1X

ここに画像の説明を入力してください


オープンエンドの結論

確率と負の対数オッズの両方の正規QQプロットを見ると、どちらも正規分布していないことがわかります。これで違いを説明できますか?

ここに画像の説明を入力してください

ソース:


1

このページのログ変換のコンテキストで説明されているように、ほとんどの場合、おそらく最も簡単な方法が最適です。統計的テストを実行し、そのロジットスケールで定義された信頼区間(CI)を使用して、従属変数をロジットスケールで分析していると考えてください。オッズ比への逆変換は、単にそれらの結果を読者がより容易に把握できるスケールに入れることです。これは、たとえば、ハザード比とそのCIを取得するために回帰係数(および95%CI)が指数化されるCox生存分析でも行われます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.