統計とビッグデータ instrumental-variables

5

私は、内因性の基本的な定義はが満たされないということを理解していますが、これは現実世界の意味で何を意味するのでしょうか？Wikipediaの記事を読んで、需要と供給の例を理解しようと試みましたが、実際には役に立ちませんでした。内因性と外因性がシステム内にあり、システム外にあるという別の説明を聞いたことがありますが、それはまだ意味がありません。バツ′ϵ = 0X′ϵ=0 X'\epsilon=0

43 regression causality instrumental-variables

4

インストルメンタル変数とは何ですか？

インストルメンタル変数は、応用経済学と統計学でますます一般的になっています。未経験者のために、以下の質問に対する技術的ではない回答がありますか？インストルメンタル変数とは何ですか？いつインストルメンタル変数を使用したいですか？インストルメンタル変数をどのように見つけ、選択しますか？

36 regression econometrics instrumental-variables

3

2段階モデル：Heckmanモデル（サンプル選択を処理するため）とInstrumental変数（内因性を処理するため）の違い

私は、サンプル選択と内因性の違いと、（サンプル選択を処理するための）Heckmanモデルが（内因性を処理するための）インストルメンタル変数回帰とどのように異なるかについて頭を悩ませようとしています。サンプル選択は、内生変数が治療される可能性がある内生性の特定の形態であると言うのは正しいですか？また、ヘックマンモデルとIV回帰はどちらも2段階モデルであり、最初の段階では治療される可能性を予測しているようです。でもどうやって？

16 instrumental-variables endogeneity 2sls heckman

3

IV分位回帰に関する文献

ここ数ヶ月、私はこの夏の修士論文の準備として、分位点回帰について集中的に読みました。具体的には、このトピックに関するRoger Koenkerの2005年の本のほとんどを読みました。ここで、この既存の知識を拡張して、計測変数（IV）を可能にする分位点回帰手法にしたいと思います。これは活発な研究分野であり、急速に成長しているようです。誰かが私に提案することができます： IV分位回帰に関する論文またはその他の文献これらのさまざまな統計手法の概要さまざまな手法の長所と短所私は主に文学を探して、始めて、そこにあるものの良い概要を持っています。したがって、最初のポイントは重要なポイントです。2つ目と3つ目は良いでしょう！また、私の関心は主に断面法にありますが、パネル法も歓迎します。前もって感謝します。

16 regression references econometrics instrumental-variables quantile-regression

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

2SLSが第2ステージのプロビット

観測データで因果関係を推測するために、機器変数分析を使用しようとしています。私の研究における内因性の問題に対処する可能性が高い2段階の最小二乗（2SLS）回帰に遭遇しました。ただし、最初の段階はOLSになり、2番目の段階は2SLS内でプロビットになります。私の読書と検索に基づいて、研究者は2SLSまたは第1段階のプロビットと第2段階のOLSのいずれかを使用していますが、私が達成しようとしているのは逆ではありません。現在、Stataを使用していますが、Stataのivregコマンドはストレート2SLS用です。

15 stata probit instrumental-variables 2sls

2

機器変数方程式は、有向非巡回グラフ（DAG）として記述できますか？

有向非巡回グラフ（DAG）は、統計モデルにおける定性的な因果関係の仮定の効率的な視覚的表現ですが、通常の機器変数方程式（または他の方程式）を表すために使用できますか？もしそうなら、どうですか？そうでない場合、なぜですか？

15 causality instrumental-variables dag

6

条件「B」に対する治療「A」の利点を決定する際の有効性と有効性の違いは何ですか？

この質問のコンテキストは、健康の枠組み内、つまり、状態の治療における1つまたは複数の治療法を見ることです。尊敬されている研究者でさえ、用語「有効性」と「有効性」を混同しているようです。混乱を取り除くのに役立つ方法で、有効性と有効性をどのように考えることができますか？両方のタイプの結果を決定するのに、どのタイプの研究デザインが最も適切でしょうか？信頼できる雑誌の出版物、書籍、またはウェブ辞書はありますか？

14 epidemiology causality clinical-trials definition instrumental-variables

1

識別されたばかりの2SLSは中央値不偏ですか？

でアン経験主義者の仲間：ほとんど無害計量経済学（AngristとPischke、2009：209ページ）私は、次をお読みください。（...）実際、特定されたばかりの2SLS（たとえば、単純なWald推定量）はほぼ不偏です。識別されたばかりの2SLSにはモーメントがないため、これを正式に表示するのは困難です（つまり、サンプリング分布には太い尾があります）。それにもかかわらず、弱い機器であっても、特定されたばかりの2SLSは、本来あるべき場所のほぼ中央にあります。したがって、特定されたばかりの2SLSは中央値不偏であると言います。（...）著者は、特定されたばかりの2SLSは中央値で偏りがないと言っていますが、彼らはそれを証明せず、証拠への言及も提供しません。213ページで、彼らは再び命題について言及しているが、証拠への言及はない。また、MITの 22ページの機器変数に関する講義ノートでは、提案の動機を見つけることができません。彼らのブログのメモでそれを拒否するので、理由は命題が間違っているかもしれません。ただし、特定されたばかりの2SLSはほぼ中央値で偏りがないと彼らは書いています。彼らは小さなモンテカルロ実験を使用してこれを動機付けていますが、近似に関連する誤差項の分析的証明または閉形式表現は提供していません。とにかく、これは、ミシガン州立大学のゲイリー・ソロン教授に対する著者の回答であり、2SLSが特定されたのは中央値で不偏ではないとコメントしました。質問1：Gary Solonが主張するように、特定されたばかりの2SLSが中央値不偏でないことをどのように証明しますか？質問2：ちょうど特定された2SLSがAngristとPischkeが主張するようにほぼ中央値で偏っていないことをどのように証明しますか？質問1では、反例を探しています。質問2では、（主に）証拠または証拠への参照を探しています。また、この文脈での中央値-偏りのない形式的な定義も探しています。次のように私は、概念を理解する：アン推定のいくつかのセットに基づいてののランダム変数は、中央値、公平のためのものである場合のみとの分布に中央値ある場合θX1：N、Nθ θ（X1：N）θθ^（X1 ：n）θ^（バツ1：n）\hat{\theta}(X_{1:n})θθ\thetaバツ1 ：nバツ1：nX_{1:n}nnnθθ\thetaθ^（X1 ：n）θ^（バツ1：n）\hat{\theta}(X_{1:n})θθ\theta ノート特定されたばかりのモデルでは、内因性のリグレッサーの数は機器の数に等しくなります。特定されたばかりのインストルメンタル変数モデルを記述するフレームワークは、次のように表現できます。対象の因果モデルと第1段階の方程式は、ここで、は内因性リグレッサーを記述する行列であり、インストルメント変数は行列によって記述されます。ここで、は、いくつかの制御変数を説明しています（たとえば、精度を向上させるために追加されます）。そして、とエラー項です。 XK×N+1のkK×N+1ZWU、V{ Yバツ=Xβ+ Wγ+ あなた=Zδ+ Wζ+ v（1）（1）{Y=バツβ+Wγ+あなたはバツ=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}バツバツXk × n + 1k×n+1k\times n+1kkkk × n + 1k×n+1k\times n+1ZZZWWWあなたはあなたはuvvv 2SLSを使用してを推定します。まず、を制御するを回帰し、予測値を取得します。これは最初の段階と呼ばれます。次に、制御するを回帰し。これは第2段階と呼ばれます。第2段階のの推定係数は、 2SLS推定です。（1 ）X Z W X Y X W X βββ\beta（1 ）（1）(1)バツバツXZZZWWWバツ^バツ^\hat{X}YYYバツ^バツ^\hat{X}WWWバツ^バツ^\hat{X}ββ\beta …

12 regression self-study multiple-regression econometrics instrumental-variables

1

Stataでインストルメント化された相互作用項を使用してインストルメンタル変数回帰を行う方法は？

Stata構文に少し問題があります。次の回帰を行う必要があります。 y=ax+bz+c(xz)+ey=ax+bz+c(xz)+ey = ax + bz + c(xz) + e ここで、とzの両方が計測され、相互作用項x zは計測されたxとzの値を使用します。xxxzzzxzxzxzxxxzzz とzの予測値を生成し、それらを回帰変数として使用するだけでは、誤った標準誤差が生じます。xxxzzz 編集：また、1つの変数のみが計測され、この1つの計測変数が相互作用項にある状態で、同様の回帰を行う必要があります。

12 stata interaction instrumental-variables

2

プロビット2ステージ最小二乗（2SLS）

最初の段階がプロビットであり、第2段階がOLSである2段階のIV回帰を実行することが可能であると言われました。第1ステージがプロビットで第2ステージがプロビット/ポアソンモデルの場合、2SLSを使用できますか？

12 binary-data instrumental-variables probit 2sls

3

遅延DVを計測変数として使用する理由

私は計量経済学者ではなく、理解に苦労しているいくつかのデータ分析コードを継承しました。1つのモデルは、次のStataコマンドでインストルメンタル変数の回帰を実行します ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) このデータセットは、この一連の変数の複数の順次観測を含むパネルです。このコードがDVの遅れた値を計測器として使用するのはなぜですか？私が理解しているように（古い教科書を掘り下げることから）、リグレッサがエラー項と相関しているために問題がある場合、IV推定が使用されます。ただし、DVのラグを楽器として選択することについては言及されていません。コードのこの行へのコメントは「因果関係」について述べています。ここで何が目的であったかを理解するための助けがあれば、大歓迎です。

12 regression stata instrumental-variables

2

楽器と変数の因果関係の方向性は重要ですか？

因果律に関する楽器変数の標準的なスキーム（->）は次のとおりです。 Z -> X -> Y ここで、Zは機器、Xは内生変数、Yは応答です。次の関係は可能ですか？ Z <- X ->Y Z <-> X ->Y も有効ですか？インストゥルメントと変数の間の相関は満たされますが、そのような場合の除外制限はどのように考えることができますか？注：表記<->は明確ではなく、問題の異なる理解につながる可能性があります。それでも、回答はこの問題を強調し、それを使用して問題の重要な側面を示しています。読むときは、質問のこの部分について注意して進めてください。

11 causality instrumental-variables endogeneity

1

機器変数は選択バイアスにどのように対処しますか？

インストルメンタル変数が回帰の選択バイアスにどのように対処するのかと思います。ここに私が噛んでいる例があります：ほぼ無害な計量経済学で、著者は兵役と人生の後期の収入に関連するIV回帰について議論します。問題は、「軍での奉仕は将来の収入を増加または減少させるか」ということです。彼らはベトナム戦争の文脈でこの質問を調査します。私は兵役を無作為に割り当てることはできず、これは因果推論の問題であることを理解しています。この問題に対処するために、研究者は実際の兵役の手段として適格性のドラフト（「ドラフト番号が呼び出される」など）を使用します。それは理にかなっています：ベトナムのドラフトはランダムに若いアメリカ人男性を軍隊に割り当てました（理論的には、ドラフトが実際に私の質問に触れたかどうか）。私たちの他のIV条件はしっかりしているようです。適格草案と実際の兵役は強く、正の相関があります。これが私の質問です。自己選択のバイアスがかかるようです。たぶん、より裕福な子供たちは、彼らのドラフト番号が呼び出されたとしても、ベトナムでの奉仕から抜け出すことができます。（それが実際に当てはまらない場合は、私の質問のためにふりをしましょう）。この自己選択によりサンプル内にシステムバイアスが生じる場合、計測変数はこのバイアスにどのように対処しますか？推論の範囲を「ドラフトから逃れられなかった人々のタイプ」に狭める必要がありますか？それともIVはどういうわけか私たちの推論のその部分を救いますか？これがどのように機能するかを誰かが説明できれば、私は非常に感謝します。

11 regression econometrics bias causality instrumental-variables

1

バイナリー楽器とバイナリー内因性変数を使用して、楽器変数回帰の第2段階係数を解釈する方法

（かなり長い投稿、申し訳ありません。多くの背景情報が含まれているので、下部の質問に進んでください。）イントロ：私たちは、バイナリ内生変数の影響を識別しようとしているプロジェクトに取り組んでいます、連続結果に、。私たちは、無作為に割り当てられると強く信じている楽器を考え出しました。x1x1x_1yyyz1z1z_1 データ：データ自体はパネル構造になっており、約34,000の観測が1000ユニットと約56の期間に分散しています。は約700（2％）の観測値に対して1の値をとり、は約3000（9％）に対して値を受け取ります。111（0.33％）観察は、両方で1スコア上、それは上で1得点を観察するための二倍の可能性があるに、それはまた、スコア1が場合。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 推定： Stataのivreg2プロシージャを使用して、次の2SLSモデルを推定します。 x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u ここで、他の外因性変数のベクトルであり、の予測値である第一段階から、そして及び誤差項です。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 結果：すべてがうまく機能しているようです。推定第一段階において非常に重要であるとの推定第二段階において非常に重要です。他の外生変数の兆候を含め、すべての兆候は予想どおりです。ただし、問題は（関心のある係数）の推定値が信じられないほど大きい（または、少なくとも、これまでの解釈に従って）ことです。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy範囲は約2から約26で、平均値と中央値は17ですが、の推定値は30から40の範囲です（仕様によって異なります）。β1β1\beta_1 弱いIV：最初の考えは、これは楽器が弱すぎるためであると考えていました。つまり、内生変数とはあまり相関していませんが、実際にはそうではありません。それは違反に堅牢なテスト提供として、機器の弱点を調べるために、我々は、フィンレイ、Magnusson氏、およびシェーファーのweakivパッケージを使用私たちはパネルデータを持っていると私たちのSEの時をクラスタ化することを考えると、ここで関連する仮定を（、単位レベル）。i.i.d.i.i.d.i.i.d. 彼らのARテストによると、第2段階係数の95％信頼区間の下限は16〜29です（これも仕様によって異なります）。棄却確率は、ゼロに近いすべての値に対して実質的に1です。影響力のある観察：各ユニットを個別に削除し、各観察を個別に削除し、ユニットのクラスターを削除して、モデルの推定を試みました。実際の変化はありません。提案された解決策：誰かが、インストルメントされた推定効果を元のメトリック（0-1）で要約するのではなく、その予測バージョンのメトリックで要約するべきだと提案しました。範囲は-0.01〜0.1で、平均および中央値は約0.02、SDは約0.018です。我々は、推定効果を要約していた場合は 1枚のSDの増加、言って、によって、それは次のようになり（その他の仕様はほぼ同じ結果が得られ）。これはかなり合理的な方法です（それでもまだ十分です）。完璧なソリューションのようです。私が誰かがそうするのを見たことがないことを除いて。誰もが、元の内生変数のメトリックを使用して第2段階の係数を解釈しているように見えます。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 質問： IVモデルで、内生変数の増加の推定効果（実際にはLATE）を、予測されたバージョンのメトリックを使用して要約することは正しいですか？私たちの場合、そのメトリックは予測確率です。注：バイナリの内生変数がある場合でも、2SLSを使用します（最初のステージをLPMにします）。これは、Angrist＆Krueger（2001）に続きます：「機器変数と識別の検索：需要と供給から自然実験まで」）Adams、Almeida、およびFerreira（2009）で使用されている3段階の手順も試しました：「創設者のCEOと会社の業績の関係を理解する」。後者のアプローチは、プロビットモデルとそれに続く2SLSで構成されており、より小さく、より適切な係数を生成しますが、0-1メトリック（約9-10）で解釈すると、それらは非常に大きくなります。Cerulliのivtreatregのprobit-2sls-optionで行うのと同じ結果を手動計算でも得ます。

11 econometrics interpretation binary-data instrumental-variables

タグ付けされた質問 「instrumental-variables」

タグ付けされた質問「instrumental-variables」