タグ付けされた質問 「econometrics」

計量経済学は、経済学への応用を扱う統計学の分野です。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
LASSO変数の選択後にOLSを実行するのはどういう意味ですか?
最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。 このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか?それがより効率的であることを示す証拠、または結果がより解釈可能ですか? 関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用 指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか?LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか?

2
複数の期間を含む差異モデルの差異の指定
2つの期間の差モデルの差を推定すると、同等の回帰モデルは次のようになります。 a。 Y私のトン=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ここで、TreatmentTreatmentTreatmentはダミーであり、観測が治療グループからのものである場合は1に等しい および ddd、治療後の期間内に1に等しいダミーで発生しました したがって、方程式は次の値を取ります。 対照群、治療前:αα\alpha 対照群、治療後:α+λα+λ\alpha +\lambda 治療群、治療前:α+γα+γ\alpha +\gamma 治療後の治療群: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta したがって、2期間モデルでは、差の推定値の差はδδ\deltaです。 しかし、治療前と治療後の期間が複数ある場合、に関してどうなりますか?治療の前後が1年かどうかを示すダミーを引き続き使用しますか?dtdtd_t または、各年が前処理期間に属するか後処理期間に属するかを指定せずに、代わりに年ダミーを追加しますか?このような: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} または私は(すなわち、両方含むことができ、)?yeardummy+λdtyeardummy+λdtyeardummy +\lambda d_t c。Yist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \lambda d_t …

2
予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか?
予測や予測ではなく、モデルパラメーターの推定(および解釈)のみに関心がある場合、正則化は役立ちますか? あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか?クロスバリデーションもそのコンテキストで役立ちますか?概念的な難易私の闘争は、我々が実際に計算できるということであるL ( Y 、Y)試験データに、しかし、我々はできる計算決してL ( β 、β)真ため、βが観測されたことがない定義です。(真のβさえ存在すると仮定してくださいββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta、つまり、データが生成されたモデルのファミリーを知っていること。) あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね?そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか?L(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、‖ β - βを ‖でも、またはちょうど(β 1 - β 1 )2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか?β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVert(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 編集:DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く 技術を機械学習...予測する統制のとれた方法で提供さ Y(i)は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び(ii)の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは(他の多くの仮定なし)のために非常に便利な保証を与えていませんβ。Y^Y^\hat{Y}Y^Y^\hat{Y}β^β^\hat{\beta} 別の関連する紙、再びDJohnsonのおかげ: http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。 ...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。


4
魔法の金のなる木問題
私はシャワーのこの問題を考えました、それは投資戦略に触発されました。 魔法の金のなる木があったとしましょう。毎日、お金の木に金額を提供することができ、それはそれを3倍にするか、50/50の確率で破壊します。あなたはすぐにこれを行うことで平均してお金を得ることに気づき、金のなる木を利用したいと思っています。ただし、一度にすべてのお金を提供した場合、すべてのお金を失うのは50%になります。受け入れられない!あなたはかなりリスクを嫌う人なので、戦略を考え出すことにします。あなたはすべてを失う可能性を最小限に抑えたいが、できるだけ多くのお金を稼ぐこともしたい!次のことを思いつきます。毎日、現在の資本の20%を金のなる木に提供します。あなたが提供できる最低価格が1セントであると仮定すると、10ドルで始めた場合、すべてのお金を失うには31の損失連続が必要です。そのうえ、獲得する現金が多ければ多いほど、すべてを失うのに必要な負け筋が長くなります。すぐに大量の現金を獲得し始めます。しかし、その後、アイデアが頭に浮かびます。毎日30%を提供するだけで、さらに多くのお金を稼ぐことができます。しかし、35%を提供してみませんか?50%?ある日、大きなドル記号を目にして、何百万ものお金の木に駆け寄り、現金の100%を提供します。翌日、マクドナルドで仕事を得ます。金のなる木はすぐに燃えます。翌日、マクドナルドで仕事を得ます。金のなる木はすぐに燃えます。翌日、マクドナルドで仕事を得ます。 すべてを失うことなく提供できる現金の最適な割合はありますか? (サブ)質問: 提供すべき最適な割合がある場合、これは静的(つまり毎日20%)ですか、それとも資本が増加するにつれて割合を増やす必要がありますか? 毎日20%を提供することで、すべてのお金を失う確率は時間の経過とともに減少または増加しますか?すべてのお金を失う確率が時間とともに増加する割合のお金はありますか?


5
t統計が非常に大きいのに、なぜR二乗が非常に低いのですか?
私は4つの変数を用いて回帰を実行し、すべてがT値と、非常に統計的に有意である≈7,9,26≈7,9,26\approx 7,9,26及び313131(I言う≈≈\approx非常に高く、明らかに有意であることが小数を含むように無関係と思われるため)。しかし、R2R2R^2はわずか.2284です。ここでtの値を、それらがそうではない何かを意味すると誤解していますか?t値を見たときの私の最初の反応は、R2R2R^2がかなり高いということでしたが、多分それは高いR2R2R^2でしょうか?

3
構造計量経済学の入門テキスト
近年、縮小型計量経済学と比較した計量経済学への構造的アプローチがより一般的になりました。これには、対象のパラメーターを推定するための理論経済モデルと統計の緊密な組み合わせが含まれます。データおよび統計的手法を使用する方法でより理論的な構造を課すことは、ガイダンスを提供することを意味し、場合によっては縮小形式の手法では容易に推定できないパラメーターを明らかにすることさえできます。非計量経済学者にとっても、シミュレーションとサンプリングは構造推定の重要な部分になる可能性があり、この手法は他の社会科学にも十分に適用できるため、これは興味深い可能性があります。 統計学の分野としてのこの計量経済学の分野には、これまでに入門的な教科書はないようです。Choo and Shum(2013)のStructural Econometric ModelsやReiss and Wolakの調査の章のような、より高度な資料のみを見つけました。 誰かが、構造計量経済学の入門書となる一連の講義や、おそらく私がまだ見つけていない本にさえ私を向けることができますか?理想的には、コードや理解を深めるためにこれらの例を複製する方法に関するガイドなど、さまざまなアプローチの例に基づいています。 特に産業組織に関するいくつかの研究論文を知っている 状態依存のモデリング(Rust、1987) 需要予測(Berry、1994; Berry、Levinson、and Pakes、1995) 生産性の推定(Olley and Pakes、1996) 市場力の推定(Nevo、2005; Sovinsky、2008) しかし、それらのほとんどは追跡が困難です。だから誰かがもっと穏やかな紹介を知っているなら、これは大きな助けになるでしょう。

3
クラスターSEを使用する場合と固定効果を使用する場合
あなたは、個人がグループ内に配置されているデータの単一断面(学校内などの生徒を)持っていて、フォームのモデルを推定したいと仮定し、個々のレベル特性とのベクトルである定数を。Y_i = a + B*X_iXa この場合、観測されていないグループ間不均一B性が、対象の独立変数と相関しているため、ポイント推定値とそのSEにバイアスをかけていると仮定します。 1つのオプションは、グループ(学校)によってSEをクラスター化することです。もう1つは、グループFEを含めることです。別の方法は両方を使用することです。これらのオプションを選択する際に考慮すべきことは何ですか?グループごとにSEをクラスタ化し、グループFEを使用する理由は特に不明です。私の特定のケースでは、35のグループと、各グループ内にネストされた5,000人の個人がいます。このpdfの説明に従いましたが、クラスター化されたSEと固定効果の両方を使用する理由と時期についてはあまり明確ではありません。 (マルチレベルモデルに適合することを提案する代わりに、クラスター化されたSEとFEの長所と短所について議論してください。)

3
IV分位回帰に関する文献
ここ数ヶ月、私はこの夏の修士論文の準備として、分位点回帰について集中的に読みました。具体的には、このトピックに関するRoger Koenkerの2005年の本のほとんどを読みました。ここで、この既存の知識を拡張して、計測変数(IV)を可能にする分位点回帰手法にしたいと思います。これは活発な研究分野であり、急速に成長しているようです。 誰かが私に提案することができます: IV分位回帰に関する論文またはその他の文献 これらのさまざまな統計手法の概要 さまざまな手法の長所と短所 私は主に文学を探して、始めて、そこにあるものの良い概要を持っています。したがって、最初のポイントは重要なポイントです。2つ目と3つ目は良いでしょう!また、私の関心は主に断面法にありますが、パネル法も歓迎します。 前もって感謝します。


3
GMMの使用をいつ検討する必要がありますか?
計量経済学をユニークにするものの1つは、一般化されたモーメント法の使用です。 GMMを他の推定手法よりも適切にするのは、どのような種類の問題ですか?GMMを使用すると、効率、バイアスの低減、またはより具体的なパラメーター推定の面で何が得られますか 逆に、GMM over MLEなどを使用すると何が失われますか?

5
M推定器の経験的ヘッセ行列は不定にできますか?
Jeffrey Wooldridgeは、断面およびパネルデータの計量経済分析(357ページ)で、経験的なヘッシアンは、「作業中の特定のサンプルについて、正定値、または正定値でさえも保証されない」と述べています。 これは私にとって間違っているようです(数値問題は別として)ヘッシアンは、与えられたサンプルの目的関数を最小化するパラメーターの値としてのM-estimatorの定義と、 (ローカル)最小値では、ヘッセ行列は半正定です。 私の主張は正しいですか? [編集:文は第2版で削除されました。本の。コメントを参照してください。] 背景と仮定最小化することにより得られた推定量である 示し番目の観察。θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta),wiwiw_iiii レッツの意味ヘッセ行列によって、 qqqHHHH(q、θ )私はj= ∂2q∂θ私∂θjH(q、θ)私j=∂2q∂θ私∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} の漸近共分散にはがます。ここでは真のパラメーター値です。それを推定する1つの方法は、経験的なヘッセ行列を使用することですθˆnθ^n\widehat \theta_nE[ H(q、θ0)]E[H(q、θ0)]E[H(q,\theta_0)]θ0θ0\theta_0 Hˆ= 1N∑i = 1NH(w私、θˆn)H^=1N∑私=1NH(w私、θ^n)\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n) 問題になっているのは\ widehat Hの確定性ですHˆH^\widehat H。

5
価格をモデル化する方法は?
私はmatemathicsスタック交換サイトでこの質問をしましたが、ここで尋ねることをお勧めしました。 私は趣味のプロジェクトに取り組んでいますが、次の問題について助けが必要です。 少しのコンテキスト 機能と価格の説明を含むアイテムのコレクションがあるとしましょう。車と価格のリストを想像してください。すべての車には、エンジンサイズ、色、馬力、モデル、年などの機能のリストがあります。メーカーごとに、次のようなものがあります。 Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... さらに進むと、価格付きの車のリストが一定の時間間隔で公開されているため、過去の価格データにアクセスできます。必ずしもまったく同じ車が含まれているとは限りません。 問題 この基本情報に基づいて自動車の価格をモデル化する方法を理解したいと思います。最も重要なのは、初期リストにない自動車です。 Ford, v6, red, automatic, 130hp, 2009 上記の車については、リストにあるものとほぼ同じですが、馬力と年がわずかに異なります。この価格を設定するには、何が必要ですか? 私が探しているのは実用的でシンプルなものですが、このようなものをモデル化するより複雑なアプローチについても聞きたいです。 私が試したこと ここで私がこれまで試してきたことを示します。 1)履歴データを使用して車Xを検索します。見つからない場合、価格はありません。これはもちろん非常に限定されており、時間の経過とともに既知の車の価格を変更するために、これを時間減衰と組み合わせてのみ使用できます。 2)価格設定されたサンプル車と一緒に車の特徴の重み付けスキームを使用する。基本的に基本価格と機能があることは、何らかの要因でそれを変更するだけです。これに基づいて、車の価格が導き出されます。 前者は十分ではないことが証明され、後者は常に正しいとは限らないことが証明され、重みを使用するための最良のアプローチがなかったかもしれません。これはまた、重みを維持する上で少し重いようです。そのため、重みを取得したり、他の何かを取得するために、履歴データを何らかの方法で統計として使用する方法があると考えたのはそのためです。どこから始めればいいのかわかりません。 その他の重要な側面 私が持っているいくつかのソフトウェアプロジェクトに統合します。既存のライブラリを使用するか、自分でアルゴリズムを作成します。 新しい履歴データが入ったときの高速再計算。 このような問題にどのようにアプローチすることができますか?すべてのアイデアは大歓迎です。 事前に感謝し、あなたの提案を読むことを楽しみにしています!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.