差異の差異(DiD)の優れた機能は、実際にはパネルデータを必要としないことです。処理が何らかの集計レベル(都市の場合)で行われることを考えると、処理の前後に都市からランダムな個人をサンプリングするだけで済みます。これにより、
を推定し、治療の予想される事後結果の差異として治療の因果関係を得ることができます。処理されたコントロールから予測される事後結果の差を差し引いたもの。
yist=Ag+Bt+βDst+cXist+ϵist
人々が治療指標の代わりに個々の固定効果を使用するケースがあり、これは治療が行われる凝集の明確なレベルがない場合です。その場合、を推定します
ここで、は、治療を受けた(例えば、いたるところに起こっている雇用市場プログラム)。詳細については、Steve Pischkeによる講義ノートを参照してください。
yit=αi+Bt+βDit+cXit+ϵit
Dit
設定では、個々の固定効果を追加しても、ポイント推定に関して何も変更されません。治療インジケーターは、個々の固定効果によって吸収されます。ただし、これらの固定効果は、残差の分散の一部を吸収する可能性があるため、DiD係数の標準誤差が減少する可能性があります。Ag
これが事実であることを示すコード例を次に示します。私はスタタを使用しますが、これを任意の統計パッケージに複製できます。ここの「個人」は実際には国ですが、それらは依然としていくつかの治療指標に従ってグループ化されています。
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
したがって、個々の固定効果が含まれている場合、DiD係数は同じままであることがわかります(これareg
は、Stataで使用可能な固定効果推定コマンドの1つです)。標準誤差はわずかに厳しく、元の治療指標は個々の固定効果によって吸収されたため、回帰で低下しました。
コメント
に応えて、私は人々が治療グループ指標ではなく個々の固定効果をいつ使用するかを示すためにピシュケの例を述べました。あなたの設定は明確に定義されたグループ構造を持っているので、あなたがモデルを書いた方法は完璧にうまくいきます。標準エラーは、都市レベル、つまり処理が行われる集計レベルでクラスター化する必要があります(サンプルコードではこれを行っていませんが、DiD設定では、Bertrand et alの論文で示されているように標準エラーを修正する必要があります)。
発動機に関しては、彼らはここで果たす役割の多くはありません。治療後の期間治療を受けた都市に住んでいる人の治療指標は1です。DiD係数を計算するには、実際には4つの条件付き期待値、つまり
Dstst
c=[E(yist|s=1,t=1)−E(yist|s=1,t=0)]−[E(yist|s=0,t=1)−E(yist|s=0,t=0)]
したがって、最初の2年間は治療対象の都市に住んでいる個人に4つの治療後期間があり、残りの2期間は統制都市に移動した場合、最初の2つの観測値がの計算に使用されおよびの最後の2つ。移動が原因ではなく、時間の経過に伴うグループの違いから識別が行われる理由を明確にするために、単純なグラフでこれを視覚化できます。結果の変化が本当に治療によるものであり、同時に効果があると仮定します。治療開始後、治療を受けた都市に住んでいて、その後統制都市に移動した個人がいる場合、結果は治療前の状態に戻るはずです。これは、下の様式化されたグラフに示されています。E(yist|s=1,t=1)E(yist|s=0,t=1)
ただし、他の理由で引越業者について考えることもできます。たとえば、治療に永続的な効果がある場合(つまり、個人が動いても結果に影響を与える場合)