結果変数がケース/コントロールステータスでない場合のケース-コントロール設計におけるロジスティック回帰係数の推定


10

サイズの母集団からデータをサンプリング検討N以下のように:についてはk=1,...,N

  1. 個々のkの「疾患」状態を観察する

  2. 彼らが疾患を持っている場合、確率p k 1でサンプルに含めますpk1

  3. それらが病気にかかっていない場合は、確率それらを含めますpk0

あなたがバイナリ結果変数観測仮定Yiとの予測ベクトルXiのために、i=1,...,n人の被験者がこの方法でサンプリングしました。結果変数は「疾患」ステータスではありません。ロジスティック回帰モデルのパラメーターを推定したい:

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

私が気にしているのは、(ログ)オッズ比です。切片は私には関係ありません。β

私の質問は、サンプリング確率無視して、あたかもモデルをあてはめることで、賢明な推定を取得できますかそれは普通のランダムなサンプルでしたか?β{pi1,pi0}i=1,...,n


この質問に対する答えは「はい」です。 私が探しているのは、これを検証するリファレンスです。

答えに確信がある主な理由は2つあります。

  1. 私は多くのシミュレーション研究を行ったが、それらのどれもこれに矛盾しない。

  2. 母集団が上記のモデルによって管理されている場合、サンプリングされたデータを管理するモデルは次のとおりであることを示すのは簡単です。

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

サンプリング確率がに依存しない場合、これは切片への単純なシフトを表し、の点推定は明らかに影響を受けません。しかし、オフセットが人ごとに異なる場合、確かに異なるポイント推定値が得られるため、このロジックはまったく適用されません。 iβ

関連: PrenticeとPyke(1979)による古典的な論文は、ケースコントロール(結果としての疾患状態を伴う)からのロジスティック回帰係数は、前向き研究から収集されたものと同じ分布を持つと述べています。これと同じ結果が当てはまるのではないかと思いますが、紙面を完全には理解していないことを告白しなければなりません。

コメント/リファレンスを事前にありがとう。


1
あなたは「転帰変数は疾患の状態ではない」と述べています。何をしない示していますか?ところで、CVへようこそ。Yi=1
ガン-モニカの回復

1
Yiは別の変数です。つまり、サンプリングの確率を決定する変数(通常はケースコントロールの疾患の状態)は結果変数と同じではないということです。データセットの2次分析を考えてみてください。たとえば、サンプルが薬物使用者と非薬物使用者の追加の(周波数が一致し、特定の共変量に対して)系統的にサンプリングされて生成されたが、調査している結果変数が他の行動測定であるとします。この場合、サンプリング方式は厄介です。ありがとう、ところで!
2013

回答:


8

これは計量経済学における選択モデルのバリエーションです。ここで選択したサンプルのみを使用した推定の妥当性は、 。ここではの病状です。Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

詳細を示すには、次の表記を定義します: および ; た場合を指す試料中にあります。さらに、簡単にするために、はから独立していると仮定します。π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

サンプルのユニットのの確率は、 は繰り返し予測の法則によるものです。病状および他の共変量条件とすると、結果 はとは無関係です。結果として、 Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
これは参照することは容易である ここで、とは、定義したサンプリングスキームです。したがって、
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
もし、 そしてサンプルの選択問題を省略できます。一方、、 一般に。特定のケースとして、ロジットモデルを考えます。 Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
とが全体で一定 である場合でも、結果の分布はロジット形成を維持しません。さらに重要なのは、パラメーターの解釈がまったく異なることです。うまくいけば、上記の引数はあなたの問題を少し明確にするのに役立ちます。pi1pi0i

を追加の説明変数として含め、基づいてモデルを推定するのです。の使用の正当性を正当化するには、あることを証明する必要があり、これはは十分な統計です。サンプリングプロセスに関する詳細情報がなければ、それが本当かどうかはわかりません。抽象表記を使ってみましょう。可観測性変数は、および他の確率変数のランダム関数と見なすことができます。DiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi。示す。場合は とは独立したを条件と、我々が持っている 独立の定義による。ただし、の独立していないでコンディショニング後と、 直感的に約いくつかの関連情報が含まれ 、そして一般的にはSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)。したがって、「しかし」の場合、サンプルの選択を知らないことが推論を誤解させる可能性があります。私は計量経済学におけるサンプル選択の文献にあまり詳しくありません。Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book計量経済学における限定従属変数と定性変数の第16章は、サンプルの選択と個別の結果に関する問題を体系的に処理することをお勧めします。


2
ありがとう。これはすばらしい答えであり、完全に理にかなっています。私のアプリケーションでは、という仮定は現実的ではありません。しかし、を予測子として追加し、分布を検討するのも同様に良いでしょう。同様の導出を使用して、であれば、問題ないことを示すことができると思います。私の場合、これは妥当な仮定です。どう思いますか?ところで、この問題について言及している参考資料はありますか?私は計量経済学の文献に精通していません。P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
2013

私は、選択プロセスをベルヌーイ裁判、つまりと考えるのが快適ですこのデータ生成の仮定の下では、このベルヌーイ試行は条件付きでから独立しているので、問題ないと思います。この問題に対するあなたの努力と洞察に感謝し、その答えを受け入れています。私が探している正確なリファレンスが誰にも付いてこないと仮定します(この問題を詳細に議論するのではなく、単純に「引用」できるようにしたいと思います)。また、賞金を差し上げます。乾杯。
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
マクロ

この選択プロセスは戦略に適合します。このような選択の問題に基づいて、あなたの問題は、欠けているデータの文献でランダムに欠けている(MAR)の例になります。受賞ありがとうございます。
2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.