パネルデータと一致する傾向スコア


13

個人の縦断的なデータセットがあり、その一部は治療の対象であり、他の対象はそうではありませんでした。すべての個人は、出生から18歳までのサンプルに含まれており、治療はその範囲内のある年齢で行われます。治療の年齢は症例によって異なる場合があります。傾向スコアマッチングを使用して、生年の18歳までの各ペアを追跡できるように、生年に完全に一致するペアの治療ユニットとコントロールユニットを一致させたいと思います。マッチング後、アイデアは差異の差の戦略を使用して治療の効果を推定することです。

私が現在直面している問題は、パネルデータとのマッチングを行うことです。Stataのpsmatch2コマンドを使用しており、傾向スコアマッチングを使用して世帯と個人の特性を照合します。一般に、パネルデータでは、年齢ごとに最適な一致が異なります。例として、Aが処理され、BとCがコントロールであり、それらすべてが1980年に生まれた場合、AとBは1980年に0歳で一致し、AとCは1981年に1歳で一致します。 。また、Aは、過去数年間の独自の治療前の値と一致する場合があります。

この問題を回避するために、サンプルの期間全体で平均的に最も類似している個人をマッチングで識別できるように、すべての時変変数の平均を取り、0〜18の年齢グループごとに個別にマッチングを行います。残念ながら、これは依然として、年齢グループごとに異なる制御ユニットを各処理ユニットに一致させます。

誰かがStataのパネルデータとペアワイズマッチングを行う方法に私を導くことができれば、これは非常に高く評価されるでしょう。

回答:


9

基本的に、照合手順に関連するすべての特性を備えたワイドフォーマットデータセットを作成し、この断面データセットで照合を実行し、IDを使用してパネルデータセット内の一致したペアを識別する必要があります。詳細を次に示します。

  1. reshapeワイド形式のデータセットを作成するために使用します。マッチング手順で使用する方法で前処理変数をフォーマットします。1人の個人に複数の観測がある場合は変数の平均を取ることができますが、他の方法を考え出すこともできます(health1、health2などの同じ変数の複数の観測を保持し、マッチングでそれらのすべてを使用することもできます) )。目標は、個人ごとに1つの観測値を持つデータセットを持つことです。

  2. このデータセットを使用して、で照合手順を実行しpsmatch2ます。

  3. 一致したケースに関する情報を元のデータセットとマージします。一致しないケースなどをドロップします。ここでは詳細についてはわかりません。なぜなら、私は本当にスタタを知らpsmatch2ないのですが、あなたはアイデアを得ると思います。

これらの手順を使用すると、治療前のすべての情報に基づいてケースを照合でき、治療ユニットごとに1つの照合しかありません。


3
この回答が実際に役立つため、なぜこの投稿がダウン投票されたのか私は本当に知りません。もう一度投票します。ありがとう、greg!
アンディ

5

Stataまたは私が知っている他のソフトウェアでは、これを行う方法はありません。

パネルデータテクニックを使用してバイアス付きマッチング推定器にパッチを当てようとしている場合、有効な方法の1つを次に示します。マッチングが選択バイアスのすべてではなく一部を処理すると仮定できますが、バイアスは時間とともにほぼ一定のままであると仮定できる場合は、各期間に個別のマッチング推定値を構築して取得することにより、バイアスの時間不変部分を削除できます違い。

ttY0

E[Y0t|バツD=1]E[Y0t|バツD=0]=E[Y0t|バツD=1]E[Y0t|バツD=0]=Bas
tM=TT+BastM=BastMtM=TT

ヘックマン、市村、スミス、およびトッド1998 EconometricaおよびEichlerおよびLechner 2002 労働経済学の論文は、このアプローチの例です。一方、150の処理された観測では、このアプローチが機能するには不十分な場合があります。


1
これらの2つのペーパー(paper1paper2)も同様に行うため、パネルデータのペアで個人を一致させることが可能です。残念なことに、著者はそれがどのように行われたかを正確に述べていません。Heckman et al(1998)で説明しているアイデアは、ペアワイズマッチングの後にDiff-in-Diffを使用するまさにその理由です。
アンディ

彼らがパネルマッチングを行っているかどうかは明確ではありませんが、その手順が曖昧であることは間違いありません。著者はpscoreを書きました。それは他の人を助けたいという一定の意欲を示しています。おそらく彼らへのメールは物事を明確にするでしょう。彼らが言ったことを報告してください。それは重要な質問です。
Dimitriy V. Masterov

0

手順:

  1. Gregで詳細に言及されているように、前処理手段または特定の前処理期間で断面データセットを使用して、マッチングを生成できます。

  2. パネル全体を使用して、
    aのインジケータ変数を割り当てます。治療された個人
    b。treatmentPeriodの場合、後者は扱われた個体の治療が行われるとすぐにゼロになります。

    治療期間が0から1に変わる時点は個人によって異なり、未治療では1にならないので、治療開始から治療前治療に同じ開始点を割り当てる必要があります。これは直観的ですが、私はまだこれまで見つけてこなかったこのアプローチを正当化する良いリファレンスを見たいです。

回帰のセットアップは次のとおりです。

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

ここで、相互作用項は治療効果を示します。


-2

nnmatchコマンドの使用を検討しましたか?

このコマンドを使用しますが、非常に包括的なコマンドです。さまざまなマッチングアルゴリズムと、いくつかのコントロールグループの個人の傾向スコアが同じ場合も考慮されます。もちろん、k-nearest-neighbourやkernelなどを使用する場合、このケースの処理はマッチングアルゴリズムに依存します。


あなたが参照した記事では、パネルデータについては言及していません。それをパネルデータに使用しましたか?
メトリクス

正確な一致は簡単ですが、nnmatchは一致するIDを現在のデータセット内ではなく別のものに保存するため、全体的に複雑です。元のデータにマージする必要のある年齢グループごとに1つのデータセットが作成されます。この場合、結合特性は元のデータの個人を一意に識別しないため、機能しません。残念ながら、これは解決策を提供しません。
アンディ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.