統計的観点から、観察研究で傾向スコアを使用して因果関係を推測できますか?


27

質問:統計学者(または開業医)の観点から、観察研究(実験ではなく)で傾向スコアを使用して因果関係を推測できますか?

どうか、炎戦争や狂信的な議論を始めたくない。

背景: stat PhDプログラム内では、ワーキンググループといくつかのトピックセッションを通じて、因果推論のみに触れました。ただし、他の部門(HDFS、社会学など)には、それらを積極的に使用している非常に著名な研究者がいます。

私はすでにこの問題についてかなり白熱した議論を目撃しました。ここから開始するつもりはありません。とはいえ、どのような参考文献に遭遇しましたか?どのような視点がありますか?たとえば、因果推論手法としての傾向スコアに対して私が聞いた議論の1つは、変数バイアスが省略されているために因果関係を推測できないことです-重要な何かを省くと、因果連鎖を破ります。これは解決できない問題ですか?

免責事項:この質問には正しい答えがないかもしれません-cwをクリックすることで完全にクールですが、私は個人的に回答に非常に興味があり、実世界の例を含むいくつかの良い参考文献に満足しています。

回答:


16

疫学におけるPSの使用を促進することを目的とした記事の冒頭で、オークスと教会(1)は、疫学における交絡効果に関するヘルナンとロビンズの主張を引用しました(2):

観測研究の結果が、測定されていない交絡の影響を受けないことを保証できますか?疫学者が提供できる唯一の答えは「いいえ」です。

これは、観察研究の結果が偏っていないか役に立たないことを保証できないというだけではありません(@propofolが言ったように、その結​​果はRCTの設計に役立つ可能性があるため)だけでなく、PSは確かにこれに対する完全な解決策を提供しないまたは、少なくとも他のマッチングまたは多変量法よりも良い結果が得られるとは限りません(たとえば(10)を参照)

傾向スコア(PS)は、構造上、原因ではなく確率的な指標です。傾向スコア関数に入る共変量の選択は、その信頼性を確保するための重要な要素であり、前述のように、その弱点は主に、観察されていない交絡因子を制御しないことから成り立っています(遡及的またはケースコントロール研究で非常に可能性が高い) 。他の要因を考慮する必要があります:(a)モデルの指定ミスは直接効果の推定値に影響します(ただし、実際にはOLSの場合よりも大きくありません)、(b)共変量のレベルでデータが欠落している可能性があります、(c)PS因果解釈に影響することが知られている相乗効果を克服しない(8,9)。

参考文献については、Roger Newsonのスライド(因果関係、交絡因子、傾向スコア)が、傾向スコアを使用することの長所と短所、および実際の研究のイラストについて比較的バランスが取れていることを発見しました。また、2年前の統計学における観察研究または環境疫学での傾向スコアの使用について議論するいくつかの優れた論文がありました。、そして最後にそれらのいくつかを囲みます(3-6)。しかし、私はパールのレビュー(7)が好きです。なぜなら、それは因果関係の問題に対するより大きな視点を提供するからです(PSは117および130ページで議論されています)。明らかに、あなたは応用研究を見ることでもっと多くのイラストを見つけるでしょう。Andrew GelmanのWebサイト(11,12)に出会ったWilliam R Shadishからの最近の記事を2つ追加します。傾向スコアの使用について説明しますが、2つの論文は、観察研究における因果推論(およびランダム化設定との比較方法)に重点を置いています。

参照資料

  1. オークス、JMおよび教会、TR(2007年)。招待解説:疫学における傾向スコア法を進めますAmerican Journal of Epidemiology、165(10)、1119-1121。
  2. Hernan MAおよびRobins JM(2006)。因果推論のための手段:疫学者の夢? 疫学、17、360-72。
  3. ルービン、D。(2007)。因果効果に関する観察研究の設計と分析:無作為化試験の設計と類似しています医学統計、26、20–36。
  4. Shrier、I.(2008)。編集者への手紙医学統計、27、2740–2741。
  5. パール、J。(2009)。傾向スコアの方法に関する備考医学統計、28、1415–1424。
  6. スチュアート、EA(2008)。傾向スコアの使用に関する実用的な推奨事項の作成:Peter Austinによる「1996年と2003年の間の医学文献における傾向スコアマッチングの重要な評価」の議論医学統計、27、2062-2065。
  7. パール、J。(2009)。統計における因果推論:概要統計調査、3、96-146。
  8. オークス、JM、ジョンソン、PJ(2006)。社会疫学の傾向スコアマッチング。では社会疫学のメソッド、JMオークスとS.カウフマン(編)、頁364から386まで。ジョセバス。
  9. ヘフラー、M(2005)。反事実に基づく因果推論BMC Medical Research Methodology5、28
  10. Winkelmayer、WCおよびKurth、T。(2004)。傾向スコア:ヘルプまたは誇大広告? 腎臓透析移植、19(7)、1671-1673。
  11. Shadish、WR、Clark、MH、およびSteiner、PM(2008)。ランダム化されていない実験では正確な回答が得られますか?ランダム割り当てと非ランダム割り当てを比較するランダム実験JASA、103(484)、1334-1356。
  12. Cook、TD、Shadish、WR、およびWong、VC(2008)。内-研究の比較から、新たな発見:3つの条件がその下での実験と観察研究は、同等の因果推定値を生成しますJournal of Policy Analysis and Management、27(4)、724–750。

11

傾向スコアは通常、一致する文献で使用されます。傾向スコアは、治療前の共変量を使用して、治療を受ける確率を推定します。基本的に、回帰(通常のOLSまたはロジット、プロビットなど)を使用して、結果および治療前の変数が共変量であるため、治療の傾向スコアを計算します。傾向スコアの適切な推定値が得られると、類似した傾向スコアを持っているが受けた治療が異なる被験者は、互いに一致します。治療効果は、これら2つのグループ間の平均の違いです。

Rosenbaum and Rubin(1983)は、傾向スコアのみを使用して治療対象と対照対象を一致させることで、スコアの作成に使用された観察前治療共変量から生じる治療効果の推定値のすべてのバイアスを除去するのに十分であることを示しています。この証明には、推定値ではなく、真の傾向スコアを使用する必要があることに注意してください。このアプローチの利点は、多次元でのマッチングの問題(処理前の共変量ごとに1つ)を単変量のマッチングケースに変換できることです。

ローゼンバウム、ポール・R、ドナルド・B・ルービン。1983.「因果効果の観察研究における傾向スコアの中心的役割。」バイオメトリカ。70(1):41--55。


8

因果関係を決定できるのは、前向き無作為化試験のみです。観察研究では、因果関係の因果関係を不可能にする未測定または未知の共変量の可能性が常にあります。

ただし、観察試験はxとyの強い関連性の証拠を提供できるため、仮説の生成に役立ちます。これらの仮説は、無作為化試験で確認する必要があります。


私はあなたに完全に同意します。観察研究は、より厳密なフレームワークを使用してテストできるいくつかの関連性を明らかにするのに適している場合があります(提案するランダム化試験)。
Sympa

きちんとした表現。xとyの間の「強力な」関連という言葉にあなたにもっと同意することはできません。
ケビン・カン

7

この質問には、実際には別々に考えるべき2つのことが含まれているようです。最初は、観察研究から因果関係を推測できるかどうかであり、その上で、プロセスを適切にモデル化できる限りはいを主張するPearl(2009)の意見と、@ propofolの意見を対比するかもしれません実験的分野で多くの同盟者を見つけ、Gerber et al(2004)のエッセイ(かなりあいまいではあるがそれでも良い)で表現された考えのいくつかを共有するかもしれない。第二に、観測データから因果関係を推測できると考えていると仮定すると、そうするのに傾向スコア法が有用かどうか疑問に思うかもしれません。傾向スコア方式には、さまざまな条件付け戦略と逆傾向の重み付けが含まれます。Lunceford and Davidian(2004)による素晴らしいレビューがあります。

ただし、少ししわです。たとえば、「間接効果」の計算に関心がある場合や、潜在的に非ランダムな消耗またはドロップアウトの問題がある場合、傾向スコアのマッチングと重み付けは、ランダム化された実験の分析にも使用されます(この場合、あなたは観察研究に似ています)。

参照資料

ガーバーA、他。2004.「観察研究から学ぶ幻想。」シャピロI他、「政治研究の問題と方法」、ケンブリッジ大学出版局。

Lunceford JK、Davidian M.2004。「因果的治療効果の推定における傾向スコアを介した階層化と重み付け:比較研究。」Statistics in Medicine 23(19):2937–2960。

パールJ.2009。因果関係(第2版)、ケンブリッジ大学出版局。


パールから本全体を引用するのは良いことです。
chl

0

従来の知識状態のみランダム化比較試験(「リアル」の実験は)因果関係を特定することができます。

ただし、それはそれほど単純ではありません。

ランダム化が十分でない可能性がある理由の1つは、「小さな」サンプルでは、​​多数の法則が、すべての差異のバランスを確保するのに「十分に強力」ではないことです。問題は、「小さすぎる」とは何か、いつ「十分な大きさ」で始まるのか、ということです。Saint-Mont(2015)は、ここで、「十分な大きさ」が数千(n> 1000)で始まると主張しています

結局のところ、ポイントはグループ間の違いのバランスをとり、違いを制御することです。そのため、実験であっても、グループ間の違いのバランスを取るために細心の注意を払う必要があります。Saint-Mont(2015)の計算によると、小さなサンプルでは、​​一致した(手動でバランスのとれた)サンプルを使用した方がかなり良い場合があります。

確率に関して。もちろん、確率が極端な(ゼロまたは1)でない限り、確率が決定的な答えを出すことはありません。しかし、科学では、物事が難しいため最終的な答えを出すことができないため、状況にしばしば直面していることがわかりました。したがって、確率の必要性。確率は、ステートメントで不確実性を表現する方法にすぎません。そのため、ロジックに似ています。ブリッグス(2016)を参照してくださいここに

したがって、確率は私たちを助けますが、決定的な答えを与えず、確実性を与えません。しかし、それは非常に有用です-不確実性を表現するために。

また、因果関係は主に統計的な問題ではないことに注意してください。2つの手段が「大幅に」異なると仮定します。グループ化変数が測定変数の差の原因であることを意味しませんか?いいえ(必ずしもそうではありません)。使用する特定の統計(傾向スコア、p値、ベイズ係数など)に関係なく、そのような方法は(実際には)因果関係の主張をバックアップするには十分ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.