傾向スコアマッチングは、観察研究で因果推論を行うために使用されます(Rosenbaum / Rubinの論文を参照)。それが機能する理由の背後にある単純な直感は何ですか?
言い換えれば、治療に参加する確率が2つのグループで等しくなるようにすると、交絡の影響がなくなり、その結果を使用して治療の因果関係を判断できるのはなぜですか。
傾向スコアマッチングは、観察研究で因果推論を行うために使用されます(Rosenbaum / Rubinの論文を参照)。それが機能する理由の背後にある単純な直感は何ですか?
言い換えれば、治療に参加する確率が2つのグループで等しくなるようにすると、交絡の影響がなくなり、その結果を使用して治療の因果関係を判断できるのはなぜですか。
回答:
数学にはほとんど重点を置かずに、直感的に理解できるようにします。
観測データとそれに由来する分析の主な問題は交絡です。交絡は、変数が割り当てられた治療だけでなく結果にも影響を与えるときに発生します。無作為化実験を行う場合、被験者は治療に無作為化されるため、平均して、各治療に割り当てられた被験者は共変量(年齢、人種、性別など)に関して類似しているはずです。この無作為化の結果として、結果の違いが共変量によるものであるとは考えられません(特に大きなサンプルの場合)が、平均して、処理グループの共変量は類似しているため、適用された処理によるものです。
一方、観測データでは、被験者を治療に割り当てるランダムなメカニズムはありません。たとえば、新しい心臓手術後の患者の生存率を、標準の外科手術と比較して調査する研究を見てみましょう。通常、倫理上の理由から、患者を各手順にランダム化することはできません。その結果、多くの場合、共変量に関連する多くの理由により、患者と医師は治療の1つに自己選択します。例えば、あなたが年をとっている場合、新しい手順はややリスクが高くなる可能性があり、その結果、医師は若い患者に新しい治療をより頻繁に勧めることがあります。これが発生して生存率を見ると、新しい治療の方が効果的であるように見えるかもしれませんが、若い患者はこの治療に割り当てられ、若い患者は長生きする傾向があるため、これは誤解を招く可能性があります。他のすべてが等しい。これは、傾向スコアが役に立ちます。
傾向スコアは、因果推論の根本的な問題に役立ちます。これは、被験者を治療にランダム化しないために交絡が生じる可能性があり、これが、介入や治療だけではなく、見られる「影響」の原因である可能性があることです。共変量(たとえば、年齢、性別、性別、健康状態)が治療グループ間で「バランスがとれた」ように分析を何らかの方法で変更できた場合、結果の違いは介入/治療によるものであるという強力な証拠があります。これらの共変量ではありません。傾向スコアは、観察された共変量のセットが与えられたときに受けた治療に割り当てられる各被験者の確率を決定します。その後、これらの確率(傾向スコア)で一致した場合、
なぜ共変量が正確に一致しないのかと尋ねる場合があります(例:治療1で健康な40歳の男性と治療2で健康な40歳の男性を一致させるようにしてください)。これは、大きなサンプルといくつかの共変量では正常に機能しますが、サンプルサイズが小さく、共変量の数が適度なサイズでさえある場合、ほぼ不可能になります(これが当てはまる理由については、相互検証の次元の呪いを参照してください)。 。
さて、これらすべてが言われているように、傾向スコアのアキレス腱は、観察されていない交絡因子がないという仮定です。この仮定は、潜在的な交絡因子である調整に共変量を含めることに失敗していないことを示しています。直感的に、これの背後にある理由は、傾向スコアの作成時に交絡因子を含めなかった場合、どのようにそれを調整できるかです。1つの被験者に割り当てられた治療が他の被験者の潜在的な結果に影響を与えないことを示す、安定した単位治療値の仮定などの追加の仮定もあります。
厳密な意味で、傾向スコア調整は因果推論とは、回帰モデリングよりも関係がありません。傾向スコアとの唯一の本当の違いは、サンプルサイズによって回帰モデルを組み込むことができるよりも、観測される潜在的な交絡因子の調整が容易になることです。傾向スコア調整(ロジットPSのスプラインを使用して、ほとんどの場合、共変量調整を介して最適に行われます)は、削減が重要な軸(交絡)に沿っているデータ削減手法と考えることができます。ただし、結果の不均一性(感受性バイアス)は処理されないため、傾向を使用している場合でも、重要な重要な共変量を調整する必要があります(オッズの非折りたたみとハザード比に関連する問題も参照)。
傾向スコアのマッチングでは、多くの観察結果が除外される可能性があるため、ひどく非効率的です。私は、関連する観察を除外する方法は問題があると考えています。マッチングの本当の問題は、1対1のマッチングが必要だと認識されているため、簡単にマッチングされる観測を除外し、ほとんどのマッチングアルゴリズムは観測の順序に依存することです。
交絡の標準回帰調整を行う場合、非重複領域をチェックして除外するのは非常に簡単です。傾向スコアのユーザーはこれを行うように教えられており、回帰モデラーがそうしない唯一の理由は、彼らが教えられていないということです。
傾向スコア分析は、曝露との相互作用を隠し、傾向スコアのマッチングは、PSと治療効果の間の可能な関係をさらに隠します。
PSでは、(測定されていない交絡因子に対する)感度分析が行われていますが、標準の回帰モデリングを使用するとさらに簡単です。
あなたがPSを推定するために柔軟な回帰法を使用する場合でも、バランスをチェックする必要はありません(例えば、任意の連続変数が直線的に行動すると仮定しないでください) -そこになければなりませんバランスやPSの回帰モデルが正しく最初に指定されていなかったこと。重複しないことを確認するだけで済みます。これは、傾向モデルから省略された重要な相互作用がないことを前提としています。マッチングも同じ前提です。
ほとんど害のない計量経済学をチェックすることをお勧めします-彼らはこれについて直感的なレベルで良い説明をしています。
あなたが解決しようとしている問題は、選択バイアスです。変数が潜在的な結果、および治療を受ける可能性と相関している場合、治療の期待結果が未治療の期待結果よりも優れていることがわかった場合、これは扱われるが高くなる傾向があり、したがってが高くなるため、誤った結果になります。がを治療と相関させるため、問題が発生します。
この問題は、制御することで解決できます。潜在的な結果と変数が線形であると考える場合は、処理用のダミー変数を使用してを回帰に含めることでこれを行い、ダミー変数は相互作用しました。もちろん、関数も含めることができるため、線形回帰は柔軟です。しかし、関数型を課したくない場合はどうでしょうか。次に、ノンパラメトリックなアプローチ、つまりマッチングを使用する必要があります。
マッチングを使用して、処理された観察と未処理の観察を同様のと比較します。処理済みと未処理の両方の観測値があるすべての値(または値の小さな範囲または「バケット」)に対する処理の効果の推定値で、これから離れます。このような値またはバケットがあまりない場合、特にが高次元ベクトルであるため、互いに近い観測値を見つけることが難しい場合は、この空間を1次元に投影すると役立ちます。
これは、傾向スコアマッチングが行うことです。場合治療所与と無相関である、それは、それらはまた、治療所与と無相関であることが判明ここで、で処理所与の確率、すなわち傾向スコア。
ここにあなたの直感があります:傾向スコア非常に類似している観測のサブサンプルが見つかった場合、そのサブサンプルについて、処理されたグループと処理されていないグループは相関していません。各観察は、治療されるか、治療されない可能性が等しくなります。これは、処理された観測値がサブサンプルの値のいずれかに由来する可能性が同じであることを意味します。以来我々のモデルの潜在的な結果を決定するものであり、これは、サブサンプル、潜在的な結果のために、それを暗示治療とは無関係です。この条件により、処理済みと未処理の結果のサブサンプル平均差が、このサブサンプルの平均処理効果の一貫した推定になります。
局所平均治療効果の一貫した推定値です。
参考文献:
これは、回帰が「機能する」のと同じ理由で「機能します」-すべての交絡要因を制御します。
このような分析的制御は、おそらく多くの交絡変数を持つ完全に指定された回帰モデル、または1つの変数-傾向スコア(同じ交絡因子で構成される同等に複雑なモデルである場合とそうでない場合がある)のみを持つ回帰モデルによって実現できます。この回帰と傾向スコアをそのまま使用するか、類似性が傾向スコアによって定義される類似グループ内の応答を比較できます。精神的にはあなたは同じことをしていますが、一部の人々は、後者の方法が目前の因果的タスクをよりよく強調していると感じています。
次のフィードバックを更新
傾向スコアマッチングが機能する理由の直観を説明するための私の考えは、傾向スコア定理を説明することでした。つまり、 回帰を使用してできると思ったもの。しかし、@ StatsStudentが主張するように、回帰により、データでは決して発生しない処理と制御の比較を容易に推定できます。これが傾向スコアマッチングが「機能する」理由の一部である場合、私の答えは不完全でした。私は偽事実と因果推論に相談しました