タグ付けされた質問 「instrumental-variables」

インストゥルメンタル変数(IV)は、標準的な回帰法が偏りがあり、一貫性のない推定値を生成する場合、内生性の存在下での観測データによる因果推論に使用されます。

2
機器がない場合の観測データのモデルについて、私たちは何と言えますか?
過去に、観測データ(つまり、制御された実験によって生成されなかったデータ)に回帰(およびパネルモデルやGLMなどの関連モデル)が使用されている多くの分野で、公開された論文に関して質問されてきました。 、多くの場合-常にではありませんが-データは時間の経過とともに観測されますが、計測変数を導入する試みは行われません。 私はいくつかの批判をしました(たとえば、重要な変数が欠落している可能性のあるバイアスの問題について説明するなど)が、ここにいる他の人はこのトピックについて私よりもはるかに知識があるので、私は尋ねると思いました: そのような状況で、関係について結論を出そうとすることの主な問題/結果(特に、因果的な結論に限定されない)は何ですか? 機器がない場合にこのようなモデルに適合する研究で、何か役立つことはありますか? そのようなモデリングに関する問題についての良い参考文献(本または論文)は何ですか(多くの場合、質問する人はさまざまな背景を持っているため、多くの統計がないものもあるため、批評で参照する可能性があります)紙?器具に関する注意/問題についての議論も有用でしょう。 (インストゥルメンタル変数に関する基本的なリファレンスはここにありますが、そこに追加するものがあれば、それも役立ちます。) 楽器を見つけて使用するための良い実用的な例へのポインタはおまけですが、この質問の中心ではありません。 [このような質問が出てきたら、ここで他の人に良い答えを指摘するでしょう。入手したら1つまたは2つの例を追加できます。]

2
従属変数の測定エラーが結果にバイアスをかけないのはなぜですか?
独立変数に測定誤差がある場合、私は結果が0にバイアスされることを理解しました。従属変数が誤差で測定される場合、標準誤差に影響するだけだと彼らは言っていますが、これは私にはあまり意味がありませんの影響を元の変数Yではなく他のYに加えてエラーを推定する。では、これはどのように見積もりに影響を与えないのでしょうか?この場合、インストルメンタル変数を使用してこの問題を削除できますか?XXXYYYYYY

1
2SLSとBinary内生変数の整合性
2SLS推定器は、バイナリの内生変数でも一貫していることを読みました(http://www.stata.com/statalist/archive/2004-07/msg00699.html)。最初の段階では、線形モデルの代わりにプロビット治療モデルが実行されます。 1Sステージがプロビットモデルまたはロジットモデルであっても、2SLSが一貫していることを示す正式な証拠はありますか? また、結果もバイナリの場合はどうなりますか?バイナリの結果とバイナリの内因性変数(第1ステージと第2ステージは両方ともバイナリプロビット/ロジットモデル)がある場合、2SLSメソッドを模倣すると一貫性のない推定値が生成されることを理解しています。これに対する正式な証拠はありますか?Wooldridgeの計量経済学の本にはいくつかの議論がありますが、矛盾を示す厳密な証拠はないと思います。 data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); x3=rand("normal",0,1); lp=0.5+0.8*iv+0.5*x2-0.2*x3; T=rand("bernoulli",exp(lp)/(1+exp(lp))); Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1); output; end; run; ****1st stage: logit model ****; ****get predicted values ****; proc logistic data=sim descending; model T=IV; output out=pred1 pred=p; run; ****2nd stage: ols model with predicted values****; proc reg data=pred1; model y=p; run; …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
ランダム割り当て:なぜわざわざ?
ランダム割り当ては、治療を潜在的な結果から独立させることができるため、価値があります。それが、平均治療効果の公平な推定につながる方法です。しかし、他の割り当てスキームも、治療の潜在的な結果からの独立性を体系的に保証することができます。では、なぜランダムな割り当てが必要なのでしょうか。別の言い方をすれば、不偏推論につながる非ランダム割り当て方式よりもランダム割り当ての利点は何ですか? ましょう各要素が0(治療に割り当てられていない単位)または1(治療に割り当てられた単位)である処置の割り当てのベクトルです。JASAの記事で、Angrist、Imbens、およびRubin(1996、446-47)は、場合、処理割り当てはランダムであると述べていすべての\ mathbf {c}および\ mathbf {c'}に対して、\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '}である場合、\ iotaはaすべての要素が1に等しい列ベクトル。ZZ\mathbf{Z}Z私ZiZ_icPr (Z = c)= Pr (Z = c』)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c} ι T C = ι T C ' ιc』c′\mathbf{c'}ιTc = ιTc』ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 言い換えると、処理へのm個の割り当てを含む割り当てのベクトルが、処理へのm個の割り当てを含む他のベクトルと同じである場合、割り当てZ私ZiZ_iはランダムであるという主張です。メートルmmメートルmm ただし、治療の割り当てからの潜在的な結果の独立性を確保するには、研究の各ユニットが治療への割り当ての確率が等しいことを確認するだけで十分です。そして、ほとんどの治療割り当てベクトルが選択される確率がゼロであっても、それは簡単に起こります。つまり、ランダムでない割り当てでも発生する可能性があります。 …

3
2SLSの分散がOLSの分散よりも大きいのはなぜですか?
... 2SLSおよびその他のIV手順を適用する際のもう1つの潜在的な問題は、2SLS標準誤差が「大きくなる」傾向があることです。このステートメントが通常意味するのは、2SLS係数が統計的に有意でないか、2SLS標準であることです。エラーは、OLSの標準エラーよりもはるかに大きくなります。当然のことながら、2SLS標準誤差の大きさは、とりわけ、推定に使用される計測器の品質に依存します。 この引用は、Wooldridgeの「断面およびパネルデータの計量分析」からのものです。なぜこれが起こるのでしょうか?数学的な説明をお願いします。 OLSの(推定)漸近分散簡単のためhomoskedasticityを想定推定によって与えられる 、一方2SLS推定量の場合 ここで、 Avarˆ(β^OLS)=nσ2(X′X)−1Avar^(β^OLS)=nσ2(X′X)−1\widehat{Avar}(\hat{\beta}_{OLS}) = n\sigma^2(X'X)^{-1}Avarˆ(β^2SLS)=nσ2(X^′X^)−1Avar^(β^2SLS)=nσ2(X^′X^)−1\widehat{Avar}(\hat{\beta}_{2SLS}) = n\sigma^2(\hat{X}'\hat{X})^{-1}X^=PzX=Z(Z′Z)−1Z′X.X^=PzX=Z(Z′Z)−1Z′X.\hat{X} = P_zX = Z(Z'Z)^{-1}Z'X. XXXは、内生変数を含むリグレッサの行列であり、は、インストルメンタル変数の行列です。ZZZ したがって、2SLSの分散を書き換えると、 Avarˆ(β^2SLS)=nσ2(X′Z(Z′Z)−1Z′X)−1.Avar^(β^2SLS)=nσ2(X′Z(Z′Z)−1Z′X)−1.\widehat{Avar}(\hat{\beta}_{2SLS}) = n\sigma^2\left(X'Z(Z'Z)^{-1}Z'X\right)^{-1}. ただし、上記の式からと結論付けることはできません。Avarˆ(β^2SLS)≥Avarˆ(β^OLS)Avar^(β^2SLS)≥Avar^(β^OLS)\widehat{Avar}(\hat{\beta}_{2SLS}) \geq \widehat{Avar}(\hat{\beta}_{OLS})

2
インストルメンタル変数を回帰の共変量として直接使用しないのはなぜですか?
楽器変数と2段階回帰の理論を知っているので、これはばかげた質問であることを知っています。それでも、以下に対する明確な答えを見たことがありません。 最初のリグレッサの1つと相関していない観測された変数による内生性があると仮定します。これを修正する一般的な方法は、観測されていない効果に相関する計測変数を見つけ、2段階の回帰アプローチを使用することです。 さて、私の質問は、なぜそのようなトラブルを経験するのかということです。なぜ、初期変数の見積もりに標準変数としてインストルメンタル変数を含めないのでしょうか。

1
制御機能アプローチとブートストラップ
のは、私は断面データを持っていると仮定してみましょう上、、(については以下を参照してください、、)。yyyバツ1バツ1x_1バツ2バツ2x_2yyyバツ1バツ1x_1バツ2バツ2x_2 変数と影響と、制御関数アプローチを使用して変数に対するそれらの相互作用()を推定したいのですが、とは内生的である可能性が高いです。と 2つのインストゥルメントがあり。次の2つの第1ステージの方程式を推定し、次の方法で予測残差を保存します。バツ1バツ1x_1バツ2バツ2x_2バツ3= x1∗ x2バツ3=バツ1∗バツ2x_3= x_1*x_2yyyバツ1バツ1x_1バツ2バツ2x_2z1z1z_1z2z2z_2 ivreg2 x1 z1 z2 predict error1hat, residuals ivreg2 x2 z1 z2 predict error2hat, residuals 予測された残差を保存したら、次の方法で第2段階の方程式を推定します。 ivreg2 y x1 x2 x3 error1hat error2hat 、、およびの推定された係数は理にかなっていますが、標準誤差はOKではないことを知っています(http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページを参照)。バツ1バツ1x_1バツ2バツ2x_2バツ3バツ3x_3 http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページで、著者はブートストラップを使用して、、修正された標準エラーを取得することをます。バツ1バツ1x_1バツ2バツ2x_2バツ3バツ3x_3 私の質問は: ブートストラップはどのように設定すればよいですか? ブートストラップは第2段階の方程式にのみ適用されますか、それとも第1段階と第2段階の両方の方程式に適用されますか? ここで、、、およびパネルデータがあるとします。まず、グループ内差異を使用して、観察されていない異質性を削除し、次に、データが断面データであるかのように、制御関数アプローチを使用してパラメーターを推定します(上記を参照)。上記のケースに関してパネルデータを使用する場合、追加の調整を行う必要がありますか?yyyバツ1バツ1x_1バツ2バツ2x_2

1
メディエーションの観点からのインストルメント変数と除外制限
インストゥルメンタル変数の除外制限を理解できません。 公平な治療効果はB = C o v (Y 、Z )であることを理解しています、ここでYは結果、Sは治療、Zは手段です。つまり、B=ITTB=Cov(Y,Z)Cov(S,Z)B=Cov(Y,Z)Cov(S,Z)B = \frac{Cov(Y, Z)}{Cov(S, Z)}YYYSSSZZZ。B=ITTCompliance RateB=ITTCompliance RateB = \frac{ITT} {\text{Compliance Rate}} しかし、調停の枠組みでこれについて考え、除外制限を適用すると、これはますます意味がなくなります。 メディエーション・フレームワークでは、ITTは、総効果=、または。したがって、公平な治療効果は次のとおりです。Cov(S,Z)⋅Cov(Y,S)+Cov(Y,Z|S)Cov(S,Z)⋅Cov(Y,S)+Cov(Y,Z|S)Cov(S,Z)\cdot Cov(Y,S) + Cov(Y,Z|S) 、これは次のようになります。(Cov(S,Z)⋅Cov(Y,S)+Cov(Y,Z|S))Cov(S,Z)(Cov(S,Z)⋅Cov(Y,S)+Cov(Y,Z|S))Cov(S,Z)\frac{(Cov(S,Z)\cdot Cov(Y,S) + Cov(Y,Z|S))}{Cov(S,Z)} 、Cov(Y,S)+Cov(Y,Z|S)Cov(S,Z)Cov(Y,S)+Cov(Y,Z|S)Cov(S,Z)Cov(Y,S) + \frac{Cov(Y, Z|S)}{Cov(S, Z)} したがって、偏りのない因果推定は、バイアスされた治療の効果+楽器の効果(。controllingforthetreatmentcomplianceratecontrollingforthetreatmentcompliancerate\frac{controlling for the treatment} { compliance rate} ただし、除外制限があるため、処理を制御した後の機器の影響はありません。 ゲルマンのセサミストリートの例からの例。まず、2SLSを介して公平な治療効果を得る: fit.2s <- lm(regular ~ encour, data = df) …


3
機器変数の有効性の定義
「楽器の有効性」とはどういう意味ですか? 私の計量経済学コースでは、計測器の有効性をとして定義しましたここで、は計測変数であり、は一変量回帰モデルの誤差項です。次に、楽器の強さについても話しましたが、妥当性とは異なる要件であることを正しく理解できたと思います。Z uE[Z|u]=0E[Z|u]=0E[Z|u]=0ZZZuuu アプリケーションでは、妥当性の定義はとしてよく見られますここで、は計測器であり、は内因性の説明変数であり、(上記のように)、通常は除外制限として定義されます。Z X E [ Z | u ] = 0corr(Z,X)≠0corr(Z,X)≠0{\rm corr}(Z,X) \neq 0ZZZXXXE[Z|u]=0E[Z|u]=0E[Z|u]=0 私は少し混乱していて、必要なIVアプローチの入門書を見つけるのはそれほど簡単ではありません。誰かがこれらの問題を解明することができますか?

2
AngristとImbensのLATE定理の証明1994
内因性変数が結果及ぼす影響を推定するために使用できるバイナリー機器があると仮定します。楽器に有意な第1ステージがあり、ランダムに割り当てられ、除外制限を満たし、Angrist and Imbens(1994)で概説されているように単調性を満たしているとします。 http://www.jstor.org/discover/10.2307/2951620?uid=3738032&uid=2&uid=4&sid=21104754800073ZiZiZ_iDiDiD_iYiYiY_i 彼らは、コンパイラである確率()は およびコンパイラーの部分潜在的な結果の差は CiCiC_iPr(Ci)=Pr(Di=1|Zi=1)−Pr(Di=1−Zi=0)Pr(Ci)=Pr(Di=1|Zi=1)−Pr(Di=1−Zi=0)\text{Pr}(C_i) = \text{Pr}(D_i = 1|Z_i = 1) - \text{Pr}(D_i = 1 - Z_i = 0)E(Yi1−Yi0|Ci)=E(Yi|Zi=1)−E(Yi|Zi=0)E(Di|Zi=1)−E(Di|Zi=0)E(Yi1−Yi0|Ci)=E(Yi|Zi=1)−E(Yi|Zi=0)E(Di|Zi=1)−E(Di|Zi=0)E(Y_{i1} - Y_{i0}|C_i) = \frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{E(D_i|Z_i=1)-E(D_i|Z_i=0)} 誰かがこれらの2つの表現をどのように取得するか、さらに重要なことにそれらをどのように組み合わせるかについて、誰かがいくつかの光を当てることができますか?私は彼らのジャーナル記事からこれを理解しようとしますが、私はそれを理解することができません。これについて何か助けていただければ幸いです。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.