2段階モデル：Heckmanモデル（サンプル選択を処理するため）とInstrumental変数（内因性を処理するため）の違い

16

私は、サンプル選択と内因性の違いと、（サンプル選択を処理するための）Heckmanモデルが（内因性を処理するための）インストルメンタル変数回帰とどのように異なるかについて頭を悩ませようとしています。

サンプル選択は、内生変数が治療される可能性がある内生性の特定の形態であると言うのは正しいですか？

また、ヘックマンモデルとIV回帰はどちらも2段階モデルであり、最初の段階では治療される可能性を予測しているようです。でもどうやって？

— キレニア
ソース

23

最初の質問に答えるには、サンプル選択が内因性の特定の形態であることは正しいです（内因性と一般的な治療法の基本的なレビューについてはAntonakis et al。2010を参照してください）。は、治療変数自体（「非ランダム治療の割り当て」）であるため、内生変数であり、治療される可能性ではなく、サンプル選択で内生変数です。内生性とは、観察された「関係」が実際にXとYの両方に影響する別の因子Zによるものである場合、因子Xと因子Yの因果関係を誤って特定した状況を指すことを思い出してください。：

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

内因性は、1つまたは複数の予測変数がモデルの誤差項に関連している場合に発生します。つまり、です。 $Cov(x,\epsilon)\ne0$

内因性の一般的な原因は次のとおりです。

省略された変数（測定できないもの）
- 動機/選択
- 能力/才能
- 自己選択
測定エラー （を含めたいが、のみを観察したい） $x_j$ $x_j*$
同時性/双方向性（5歳未満の子供では、栄養状態インジケータ「年齢に対する体重」と子供が最近病気にかかったかどうかとの関係は同時である可能性があります。

さまざまなタイプの問題には、IVとヘックマンタイプの修正の違いがある、わずかに異なるソリューションが必要です。もちろん、これらの方法の基礎となるメカニズムには違いがありますが、前提は同じです。つまり、理想的には除外制限、つまりIVの場合は1つ以上の機器、または選択に影響するが選択には影響しない変数を介して内生性を除去することですヘックマンの場合の結果。

2番目の質問に答えるには、これらのソリューションの開発をもたらしたデータ制限の種類の違いについて考える必要があります。1つまたは複数の変数が内生的である場合、インストルメンタル変数（IV）アプローチが使用され、内生性を除去するためにモデルに固執する単純なプロキシは存在しないが、共変量と結果はすべての観測で観察されると考えるのが好きです。一方、Heckmanタイプの修正は、切り捨てがある場合に使用されます。つまり、選択変数の値== 0であるサンプルの情報については情報が観察されません。

インストルメンタル変数（IV）アプローチ

2段階最小二乗（2SLS）推定量を使用したIV回帰の古典的な計量経済学の例を考えてみましょう：収益に対する教育の影響。

$Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$ （1）

ここで、学業成績のレベルは、個人の動機と能力によって部分的に決定されるため、内生的です。どちらも個人の収入に影響します。動機と能力は、通常、家計調査や経済調査では測定されません。したがって、式1は、動機と能力を明示的に含めるように記述できます。

$Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$ （2）

とは実際には観測されないため、式2は次のように記述できます。 $Motiv$ $Abil$

$Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$ （3）、

ここで、（4）。 $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

したがって、教育がOLSを介した収益に与える影響の単純な推定には偏りがあります。あなたがすでに知っているこの部分。

過去に、人々は、有効な手段（）の3つの要件に適合するため、対象者自身の教育レベルの手段として親の教育を使用していました。 $z$

$z$ は内因性予測子に関連している必要があります、 $𝐶𝑜𝑣(𝑧,𝑥)≠0$
$z$ 直接結果に関連することができない-、及び $𝐶𝑜𝑣(𝑧,𝑦)=0$
$z$ は、観測不可能な（u）特性に関連付けることはできません（つまり、は外因性です） $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

最初の段階で両親の教育（および）を使用して被験者の教育（）を推定し、教育の予測値（）を使用して2番目の段階でを推定すると、（非常に単純な用語で）、モチベーション/能力によって決定されないの部分に基づいてを推定します。 $OwnEd$ $MomEd$ $DadEd$ $\widehat{OwnEd}$ $Earnings$ $Earnings$ $OwnEd$

ヘックマン型補正

以前に確立したように、非ランダムなサンプル選択は特定のタイプの内因性です。この場合、省略された変数は、サンプルに人がどのように選択されたかです。通常、サンプル選択の問題がある場合、結果はサンプル選択の対象者のみに観察されますvariable == 1。この問題は「偶発的な切り捨て」とも呼ばれ、解決策は一般的にヘックマン補正として知られています。計量経済学の典型的な例は、既婚女性の賃金の申し出です。

$Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$ （5）

ここでの問題は、ある私たちは賃金オファーが労働力に参加しない人たち、選択変数のためにあるのかわからないようナイーブ推定器は、バイアスされてしまうだけなので、賃金のために働いていた女性のために観察される。式5は、2つの潜在モデルによって共同で決定されることを示すために書き直すことができます。 $Wage$ $s$

$Wage_i^* = X\beta^\prime+\epsilon_i$ （6）

$LaborForce_i^* = Z\gamma^\prime+\nu_i$ （7）

つまり、 IFFおよび IFF $Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

したがって、ここでの解決策は、プロビットモデルと除外制限を使用して、最初の段階で労働力に参加する可能性を予測し（有効な金融商品の同じ基準がここに適用されます）、予測された逆ミルズ比（）各観測について、第2段階で、モデルの予測子としてを使用して賃金のオファーを推定します（Wooldridge 2009）。の係数が統計的にゼロに等しい場合、サンプル選択（内因性）の証拠はなく、OLS結果は一貫しており、表示できます。の係数 $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ ゼロと統計的に有意に異なる場合、修正されたモデルから係数を報告する必要があります。

参照資料

アントナキス、ジョン、サミュエルベンダハン、フィリップジャカール、ラファエルラライブ。2010.「因果関係の主張について：レビューと提言。」リーダーシップクォータリー 21（6）：1086–1120。doi：10.1016 / j.leaqua.2010.10.010。
Wooldridge、Jeffrey M.2009。入門計量経済学：最新のアプローチ。第4版米国オハイオ州メイソン：南西部、Cengage Learning。

— カラバスMar爵
ソース

1

ヘックマン型補正では、各観測の逆ミル比値を解釈する方法は？特定の瞬間に非就労人口から働く人々の数を示していますか？

— Quirik

2

特定のヘックマンサンプル選択モデル（1つのサンプルのみが観察される）と、2つのサンプルが観察される場合にも機能する自己選択のヘックマン型補正を区別する必要があります。後者は制御機能アプローチと呼ばれ、内生性を制御する用語を第2段階に含める量です。

内生ダミー変数D、楽器Zを使用した標準的なケースを考えてみましょう。

Y = β + β_{1} D + ϵ

$Y= \beta + \beta_1 D +\epsilon$

D = γ + γ_{1} Z + u

$D= \gamma + \gamma_1 Z +u$

どちらのアプローチも、最初のステージ（Z上のD）を実行します。IVは標準のOLSを使用します（Dがダミーの場合でも）Heckmanはプロビットを使用します。しかし、これに加えて、主な違いは、主な方程式にこの最初の段階を使用する方法にあります。

IV：D の予測によって与えられると相関のない部分にDを分解することにより内生性を破る： $\epsilon$ $Y= \beta + \beta_1 \hat{D}+\epsilon$
Heckman：内因性のモデル化：内因性Dを維持しますが、第1段階の予測値の関数を追加します。この場合、それは非常に複雑な関数です：逆であるミルズ比 $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ $\lambda()$

Heckmanプロシージャの利点は、内生性の直接テスト、係数提供すること。一方、ヘックマン手順は、エラーの結合正規性の仮定に依存していますが、IVはそのような仮定を行いません。 $\beta_2$

したがって、通常のエラーでは、IVよりも制御機能が効率的である（特に、ここに示した2ステップの代わりにMLEを使用する場合）が、仮定が成り立たない場合、IVはより良い。研究者が正常性の仮定についてより疑いを持つようになると、IVがより頻繁に使用されます。

— マティフォー
ソース

0

ヘックマン、ウルズア、ヴィトラシルから（2006）：

選択バイアスの例：国の結果に対する政策の影響を考慮します（GDPなど）。政策がなくても観測不能という点でうまく行っていた国がその政策を採用している国である場合、OLSの推定値は偏っています。

この問題を解決するために、2つの主なアプローチが採用されています：（a）選択モデルと（b）インストルメンタル変数モデル。

選択アプローチは、条件付き平均のレベルをモデル化します。IVアプローチは、条件付き平均の勾配をモデル化します。IVは、選択モデルで推定された定数を識別しません。

IVアプローチはD（治療）を条件としません。選択（制御機能）推定器は、制御機能を使用して条件付き手段を識別します。

$Z\neq X$

— ホセ・ガブリエル・アスタイザ・ゴメス
ソース

2段階モデル​​：Heckmanモデル（サンプル選択を処理するため）とInstrumental変数（内因性を処理するため）の違い

2段階モデル：Heckmanモデル（サンプル選択を処理するため）とInstrumental変数（内因性を処理するため）の違い