方法論に関する質問があるため、サンプルデータセットが添付されていません。
特定の薬物が結果のリスクを低減するかどうかを調べることを目的とした、傾向スコア調整済みCox回帰を行う予定です。研究は観察的であり、10,000人の個人を含みます。
データセットには60個の変数が含まれています。これらのうち25が治療の割り当てに影響を与える可能性があると私は判断します。私はCox回帰でこれらすべての25を調整することはありませんが、傾向スコアに予測子としてその多くの変数を含めることができ、Cox回帰には傾向スコアサブクラスと処理変数のみを含めることができると聞きました。
(もちろん、プロップスコア調整後に等しくない共変量は、Cox回帰に含める必要があります)。
結論として、その多くの予測子を小道具スコアに含めるのは本当に賢明ですか?
@Dimitriy V. Masterovこれらの重要な事実を共有していただきありがとうございます。他の回帰フレームワークを検討している本や記事とは異なり、傾向スコア分析でのモデル選択に関する(Rosenbaumsの本を読んで)ガイドラインはありません。標準的な教科書やレビュー記事では、常に厳しい変数選択を推奨し、予測子の数を低く抑えているようですが、プロップスコア分析では、このような議論はあまり見ていません。あなたは書く:(1)「理論的洞察、制度的知識、そして良い研究はXの選択を導くべきである」。私は同意しますが、変数が手元にあり、変数が治療の割り当てまたは結果に影響を与えるかどうかが実際にはわからない(しかし可能性がある)状況があります。例:濾過率で測定した腎機能を、スタチン治療の調整を目的とした支柱スコアに含めますか?スタチン治療は腎機能とは何の関係もありません。私はすでにスタチン治療に影響を与える一連の変数を含めました。しかし、それでも腎機能を含めるのは魅力的です。さらに調整される可能性があります。これは結果に影響を与えるので含める必要があると言う人もいますが、私たちが知る限り、治療にも結果にも影響を与えない変数の別の例(バイナリ変数アーバン/ルーラルリビングなど)を挙げます。それが含まれている限り、私はそれを含めたいと思います tプロップスコアの精度に影響します。(2)「治療の影響を受けるXを、治療後または治療を見越して事前に含めると、仮定が無効になります。」ここで何を言っているのかわかりません。しかし、スタチンが心血管転帰に及ぼす影響を研究する場合、傾向脂質に血中脂質のさまざまな測定値を含めます。血中脂質は治療によって影響を受けます。私はこの発言を誤解したと思います。
@statsRusは、事実、特に「入力の選択に関するメモ」と呼んでいるものを共有してくれてありがとう。私もあなたと同じように推論します。
残念ながら、プロップスコアメソッドでは、モデル選択戦略ではなく、さまざまな調整戦略について説明しています。おそらくモデルフィットは重要ではありません。その場合は、結果と治療の割り当てにわずかに影響する可能性のあるすべての変数を調整します。私は統計学者ではありませんが、モデルの適合が重要でない場合は、治療の割り当てと結果に影響を与える可能性のあるすべての変数を調整したいと思います。これは、多くの場合、治療によって影響を受ける変数を含めることを意味します。
さらに、一部の人々は、その後のCox回帰には治療変数とプロップスコアサブクラスのみを含める必要があると示唆しています。他の人は、coxの調整には、調整する他のすべての変数に加えてプロップスコアを含めることを推奨しています。