数日前に同様の質問があり、関連する参照がありました:
- Belloni、A.、Chernozhukov、V。、およびHansen、C.(2014)「高次元コントロール間の選択後の治療効果に関する推論」、経済学のレビュー、81(2)、pp。608-50(link)
少なくとも私にとっては、この比較的単純な裏付けの証拠がかなり精巧であるため、この論文はかなり読みにくいものです。ようなモデルの推定に興味がある場合
yi=αTi+X′iβ+ϵi
ここで、は結果、は関心のある治療効果、は潜在的なコントロールのベクトルです。ターゲットパラメータはです。結果の変動の大部分が治療と疎なコントロールのセットによって説明されると仮定して、Belloni et al。(2014)正しい点推定値と有効な信頼区間を提供する二重ロバスト選択法を開発します。ただし、このスパース性の仮定は重要です。yiTiXiα
もしのいくつかの重要な予測因子が含ましかし、あなたは、彼らが(単一の変数、その高次の多項式、または他の変数との相互作用のいずれか)であるかわからない、あなたは3段階の選択手順を実行することができます。Xiyi
- 後退上、その正方形、および相互作用、およびLASSOを使用しての重要な予測因子を選択yiXi
- TiXi
- 回帰するyiTi
彼らはなぜこれが機能するのか、なぜこの方法から正しい信頼区間などを得るのかについての証拠を提供します。また、上記の回帰でLASSO選択のみを実行し、治療と選択した変数の結果を回帰すると、Björnが既に述べたように、間違ったポイント推定値と誤った信頼区間が得られることも示しています。
これを行う目的は2つあります。変数選択が直観または理論によって導かれた初期モデルを二重ロバスト選択モデルと比較すると、最初のモデルがどれだけ優れているかがわかります。おそらく、最初のモデルがいくつかの重要な二乗項または相互作用項を忘れたため、関数形式の指定が間違っているか、変数が省略されている可能性があります。第二に、ベローニ等。(2014)メソッドは、冗長なリグレッサーが手順でペナルティを免れるため、ターゲットパラメーターの推論を改善できます。