複数の代入後の傾向スコアのマッチング


34

私はこの論文を参照します:Hayes JR、Groner JI。 「複数の代入および傾向スコアを使用して、外傷登録データからの損傷の重症度に対するカーシートおよびシートベルト使用の影響をテストします。」 J Pediatr Surg。2008 5月; 43(5):924-7。

この研究では、15の完全なデータセットを取得するために複数の代入が実行されました。次に、各データセットの傾向スコアが計算されました。次に、各観測単位について、完成した15個のデータセット(関連する傾向スコアを含む)の1つからレコードがランダムに選択され、傾向スコアマッチングによって分析される単一の最終データセットが作成されました。

私の質問は次のとおりです。これは、複数の代入に続く傾向スコアのマッチングを実行する有効な方法ですか?それを行う別の方法はありますか?

コンテキスト:私の新しいプロジェクトでは、傾向スコアマッチングを使用して2つの治療法の効果を比較することを目指しています。欠損データがありMICEます。R のパッケージを使用して欠損値を代入twangし、傾向スコアのマッチングを行い、マッチングlme4したデータを分析します。

アップデート1:

異なるアプローチをとるこの論文を見つけました。Mitra、Robin and Reiter、Jerome P.(2011)反復シーケンシャル多重代入による欠落した共変量との傾向スコアのマッチング[Working Paper]

この論文では、著者はすべての帰属データセットの傾向スコアを計算し、平均化によってそれらをプールします。これは、ポイント推定にルービンのルールを使用した多重帰属の精神に基づいていますが、傾向スコアには本当に適用可能ですか?

これらの2つの異なるアプローチ、および/または他のアプローチについてのコメントをCVの誰かが提供できれば、本当に素晴らしいでしょう。

回答:


20

最初に言いたいのは、私にとって、方法1(サンプリング)はあまりメリットがないように見えることです-Stasが述べたように、複数の代入の利点を破棄し、観測ごとに単一の代入に還元します。私はそれを使用することの利点を見ることができません。

ヒル(2004)における欠損データと傾向スコア解析を取り巻く問題の優秀な議論があります:ヒル、J. 「観察研究における治療効果の推定の偏りを減らすには、データの欠落からの苦しみ」 ISERPワーキングペーパー、2004年にそれはからダウンロード可能ですこちら

このペーパーでは、複数の代入(および欠落データを処理する他の方法)と傾向スコアを使用する2つのアプローチを検討しています。

  • 複数の代入後の傾向スコアの平均化、それに続く因果推論(上記投稿の方法2)

  • 複数の代入からの傾向スコアの各セットを使用した因果推論と、それに続く因果推定値の平均化。

さらに、この論文では、結果を代入モデルに予測子として含める必要があるかどうかを検討します。

ヒルは、複数の代入が欠損データを処理する他の方法よりも優先される一方で、一般に先験的ではないと断言しますこれらの技術の一方を他方よりも好む理由。ただし、特に特定のマッチングアルゴリズムを使用する場合は、傾向スコアの平均化を好む理由があります。ヒルは同じ論文でシミュレーション研究を行い、結果を補完モデルに含めると、因果推論の前に傾向スコアを平均化すると、平均二乗誤差に関して最高の結果が得られ、最初にスコアを平均化したが、結果はなかったことを発見しました代入モデルでは、平均バイアス(推定効果と実際の治療効果の絶対差)に関して最高の結果が得られました。通常、結果を代入モデルに含めることをお勧めします(たとえば、こちらを参照)。

だから、あなたの方法2が行く方法であると思われるでしょう。


1
私はメソッド番号2を理解していますが、Rでそれを実装する方法に途方に暮れています。私を指す参照はありますか?
サム

2
両方の方法のRコードは、cobalt「複雑なデータでのコバルトの使用」というタイトルのパッケージのビネットで提供されています。ここからアクセスできます:CRAN.R-project.org/package=cobalt
ノア

13

2つのパラダイムの衝突があるかもしれません。多重代入は、非常にモデルに基づいたベイジアンソリューションです。適切な代入の概念は、データの明確に定義された事後分布からサンプリングする必要があることを示しています。一方、傾向スコアのマッチングはセミパラメトリックな手順です:傾向スコアを計算したら(どのように関係なく、必ずしもロジットモデルではなくカーネル密度推定を使用できます)、残りを行うことができます他の共変量を制御するモデルが残っていないため、同じ傾向スコアを持つ処理済みの観測値と未処理の観測値の差を単純に取得することにより、現在は非パラメトリックです。しないAbadie and Imbens(2008)は、一致する状況の一部で実際に標準エラーを取得することが不可能になることを議論しました)。逆傾向による重み付けなど、よりスムーズなアプローチには、より信頼を寄せたいと思います。これに関する私のお気に入りの参照は、「ほとんど無害な計量経済学」であり、「An Empiricist Companion」と題され、経済学者を対象としていますが、この本は他の社会科学者、ほとんどの生物統計学者、および非生物統計学者にとっても必読の読み物であると思います他の分野がどのようにデータ分析にアプローチするかを知っていること。

いずれにしても、観測ごとに15のシミュレートされた完全なデータ行のうち1つだけを使用することは、単一の代入に相当します。その結果、15個すべての完成したデータセットと比較して効率が低下し、標準誤差を適切に推定できません。私には、どの角度から見ても不十分な手順のように見えます。

もちろん、すべての適切な変数をすべての適切な関数形式で持つという意味で、多重代入モデルと傾向モデルの両方が正しいという仮定をカーペットの下で喜んで掃除します。それを確認する方法はほとんどありません(ただし、これらの方法の両方の診断方法について、そうでない場合は喜んで聞きます)。


(+1)特に、私は、マッチングのリテラル実装によって導入された不連続性について気分がよくありません(傾向スコアの可能な限り最も近い値を持つコントロールを見つけ、残りを無視します)。傾向スコアリングは、とにかくかなり大雑把な手順として常に私を襲ってきました。
枢機

@cardinal、更新を参照してください。
StasK

実際、他の方法によるマッチングよりもIPTWに対する批判が多く見られます(読み上げる必要があります)。傾向スコアによる加重回帰(Freedman&Berk、2008)を参照してください。適用例については、Bjerk、2009を参照してください。ここで無害な計量経済学を推奨する理由はよくわかりませんが、それでも観察研究に興味のある人にはお勧めです。
アンディW

@ Andy、Freedman&Berkの記事は、すべてをロジスティック回帰でモデル化できる場合、はるかに単純な状況に対処しているようです。私の理解では、PSMのようなメソッドは、共変量がさらに多く、モデルが正しく指定されていると仮定するほど十分に信頼していない場合、より厄介な状況に適用されます。彼らは、状況が重み付けに有利であることに気づきましたが、他の可能な方法と比較してモデルには有利だったと思います。
StasK

2
データはiidではなく、逆ヘッセ行列と勾配の外積の等価性に関する最大尤度定理はもはや成り立たず、どちらも一貫した分散推定値ではないためです。サンドイッチ分散推定器、調査統計では線形化推定器、計量経済学では別名ロバスト推定器を使用する必要があります。
StasK

10

質問の理論的な側面については実際に話すことはできませんが、PS / IPTWモデルと複数の代入を使用した経験を提供します。

  1. 重複代入データセットとランダムサンプリングを使用して単一のデータセットを構築する人のことは聞いたことがありません。それは必ずしもそれが間違っているという意味ではありませんが、使用する奇妙なアプローチです。また、データセットは十分に大きくないため、時間と計算を節約するために1つだけではなく、3〜5つのモデルを実行するために創造性を発揮する必要があります。
  2. ルービンのルールとプーリング方法は非常に一般的なツールです。プールされた複数の代入結果は、分散と推定値のみを使用して計算できるため、プロジェクトに使用できないことを確認できる理由はありません-代入されたデータを作成し、各セットで分析を実行してからプーリングします。それは私がやったことです、私が見たものです、そしてあなたがそれをしない特定の正当化がない限り、私は本当にもっとエキゾチックな何かと一緒に行く理由を見ることができません-特にあなたが何を理解していない場合メソッドを続行します。

+1これは非常に専門的な論文のように思えるので、良い答えを提供するのが難しい質問です。しかし、OPは以前の同様の質問に対する報奨金を失うと主張することに加えて、メタに移行されたソリューションを求める質問を追加しました。私はそこであなたの答えであなたのものに同様のコメントをしました。私は特に、データの多重代入セットからのサンプルに関して疑問を持っています。
マイケルR.チャーニック

ありがとう!方法2が使用された場所に関する参照はありますか?
ジョーキング

@JoeKing悲しいことに、私の頭の上ではありません。
Fomite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.