タグ付けされた質問 「econometrics」

計量経済学は、経済学への応用を扱う統計学の分野です。

3
線形回帰における線形性の仮定は単に
線形回帰を修正しています。 グリーンによる教科書はこう述べている: ここで、もちろん、線形回帰モデルにはなどの他の仮定があります。この仮定と線形性の仮定(実際にはdefinesを定義する)を組み合わせると、モデルに構造が適用されます。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon しかし、直線性の仮定自体によっては以来、私たちのモデルにどのような構造を入れていません完全に任意でよいです。変数X 、yについては、2つの関係が何であれ、線形性の仮定が成り立つようにϵを定義できます。したがって、線形性「仮定」は、仮定ではなく、実際にはϵの定義と呼ばれるべきです。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilonϵϵ\epsilon したがって、私は不思議に思っています: グリーンはだらしないですか?彼は、実際に書かれている必要があります:?これは実際にモデルに構造を置く「線形性の仮定」です。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta それとも私は、直線性の仮定がモデルに構造を置いていないことを受け入れなければならないだけ定義します他の仮定はのその定義に使用する、εをモデルに構造を置くことを?ϵϵ\epsilonϵϵ\epsilon 編集:他の仮定については混乱があるようですので、ここに仮定の完全なセットを追加しましょう: これはグリーン、計量経済分析、第7版からです。p。16。


4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
さまざまな差異の後の回帰係数の解釈
時系列を差分した後に線形回帰係数を解釈する方法(単位根を除去するため)を説明する説明はほとんどありません。単純に、それを正式に述べる必要がないほど単純ですか? (私はこの質問を知っていますが、それがどの程度一般的であるかはわかりませんでした)。 モデル興味があるとしましょう ここで、はおそらくARMA(p、q)です。興味深いのは、、、...です。具体的には、「 1単位の変化」という観点からの解釈は、、の平均変化をもたらし δ T β 1 β 2 β Pの X I YはT β I iが= 1つの... Pを。Yt=β0+β1X1t+β2X2t++...+βpXpt+δtYt=β0+β1X1t+β2X2t++...+βpXpt+δtY_{t}=\beta_{0}+\beta_{1}X_{1t}+\beta_{2}X_{2t} + +...+\beta_{p}X_{pt}+ \delta_{t}δtδt\delta_{t}β1β1\beta_{1}β2β2\beta_{2}βpβp\beta_{p}XiXiX_{i}YtYtY_{t}βiβi\beta_{i}i=1...p.i=1...p.i = 1...p. ここで、ユニットルートからの非定常性が疑われるためにを差分する必要があるとしましょう(例:ADFテスト)。次に、同じように、それぞれのも異なるようにする必要があります。 X i tYtYtY_{t}XitXitX_{it} 次の場合、の解釈は何ですか?βiβi\beta_{i} 第1の差分 から取られるとの各? Y t X i tY』tYt′Y'_{t}YtYtY_{t}バツ私トンXitX_{it} 第2の差分(差分の差分)()から取られY_ {T}との各X_ {それ}?Y」tYt″Y''_{t} X i tYtYtY_{t}バツ私トンXitX_{it} 季節差(例えば(1 − B12)(1−B12)(1-B^{12}) 毎月のデータ用)から取得されYtYtY_{t}との各XitXitX_{it}? 編集1 係数の違いと解釈につ​​いて言及しているテキストを1つ見つけました。リンクされた質問とよく似ています。これは、動的回帰を使用したAlan …

1
OLSの厳密な外因性条件は、実際にはどういう意味ですか?
林の計量経済学では、古典的なOLSの仮定の1つは次のとおりであると述べられています:そして、すべてのに対しての影響があり、エラー項がリグレッサと無相関であることを知っています。E(ϵi|x1,x2,…,xn)=0, for i=1,…,n.(1)(1)E(ϵi|x1,x2,…,xn)=0, for i=1,…,n.\mathbb{E}(\epsilon_i\lvert\mathbf{x_1}, \mathbf{x_2}, \ldots, \mathbf{x_n}) = 0 \text{, for } i=1, \ldots, n. \tag{1}E(ϵi)=0E(ϵi)=0\mathbb{E}(\epsilon_i) = 0i=1,…,ni=1,…,ni = 1, \ldots,n しかし、式(1)自体は実際にはどういう意味ですか?教育的な例が役立つでしょう。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
正規分布エラーと中心極限定理
ウォルドリッジの導入計量経済学では、引用があります: エラーの正規分布を正当化する引数は通常、次のようなものですはに影響を与える多くの異なる観測されていない要因の合計であるため、中心極限定理を呼び出して、が近似正規分布であると結論付けることができます。uuuyyyuuu この引用は、線形モデルの仮定の1つに関連しています。 u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) ここで、uuuは母集団モデルの誤差項です。 さて、私の知る限りでは、中心極限定理は、 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (ここで、Yi¯¯¯¯¯Yi¯\overline{Y_i} は、平均μμμと分散σ^ 2を持つ任意の母集団から抽出されたランダムサンプルの平均ですσ2σ2σ^2) n \ rightarrow \ inftyとして標準の標準変数に近づきn→∞n→∞n \rightarrow \inftyます。 質問: Z_iの漸近正規性ZiZiZ_iがu \ sim N(μ、σ^ 2)をどのように意味するかを理解するu∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)



1
差分のデータ設定
を使用した差分回帰モデルの違いに対して正しい設定はどれですか Yist=α+γs∗T+λdt+δ∗(T∗dt)+ϵistYist=α+γs∗T+λdt+δ∗(T∗dt)+ϵistY_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist} ここで、Tは、観測が処理グループからのものである場合は1に等しいダミーであり、dは、処理が行われた後の期間で1に等しいダミーです 1)各グループと時間からのランダムサンプル(つまり、4つのランダムサンプル) または 2)両方の期間にわたって同じユニットが追跡されるパネルデータ? それは重要であり、そうでない場合、OLSはどちらの場合でも使用できますか?

6
パネルデータを使用してベクトル自己回帰とインパルス応答関数を推定する方法
私は、77四半期にわたって33人の個人のパネルデータに基づいて、ベクトル自動回帰(VAR)とインパルス応答関数(IRF)の推定に取り組んでいます。このタイプの状況はどのように分析する必要がありますか?この目的のためにどのようなアルゴリズムが存在しますか?私はこれらの分析をRで行うことを好みます。そのため、Rコードまたはこの目的のために設計されたパッケージに詳しい人が示唆できるとしたら、それは特に役立ちます。

1
売上予測のためのユニークな(?)アイデア
製品の総売上を予測するモデルの開発に取り組んでいます。約1年半の予約データがあるので、標準の時系列分析を行うことができました。ただし、クローズされたか失われた各「機会」(販売の可能性)に関するデータもたくさんあります。「商談」は、パイプラインのステージに沿って、閉じられるか失われるまで進行します。また、見込み客、営業担当者、インタラクション履歴、業界、予約の推定サイズなどに関するデータも関連付けられています。 私の目標は最終的には総予約数を予測することですが、予約の真の「根本原因」である現在の「機会」に関するこの情報をすべて考慮したいと思います。 私の考えの1つは、次のように2つの異なるモデルを連続して使用することです。 過去の「機会」を使用して、個々の「機会」から生じる予約を予測するモデルを構築します(おそらく、このステップでは、ランダムフォレストまたは単純な古い線形回帰を使用します)。 1からのモデルを使用して、現在パイプラインにあるすべての「機会」の推定予約を予測し、各「機会」が作成された月に基づいてそれらの推定を合計します。 時系列モデル(おそらくARIMA?)を使用し、1.5年間の月次履歴時系列データと、その月に作成されたすべての「機会」の予測(1のモデルを使用)合計予約を使用します。 実際の予約に変換するこれらの機会には遅れがあると考えられますが、時系列モデルはその遅れに対処できるはずです。 この音はどうですか?私は時系列についてたくさん読んだり、売り上げを予測したりしていますが、これからわか​​るのは、これはややユニークなアプローチです。したがって、私は本当にフィードバックをいただければ幸いです!

1
計量経済学のためのテキストマイニング/自然言語処理ツールの使用
この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。 私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟(> 20万件)にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep/ awkなどを使用した単純なキーワード/正規表現検索以上のものです。 このための自然言語処理はどの程度役に立ちますか?他の有用なテキストマイニングアプローチは何ですか?私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか?それは役に立ちますか?同様のことが以前に行われましたか?報酬の点でそれは価値がありますか?すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか? 一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。 資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。 私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。

3
ランダム割り当て:なぜわざわざ?
ランダム割り当ては、治療を潜在的な結果から独立させることができるため、価値があります。それが、平均治療効果の公平な推定につながる方法です。しかし、他の割り当てスキームも、治療の潜在的な結果からの独立性を体系的に保証することができます。では、なぜランダムな割り当てが必要なのでしょうか。別の言い方をすれば、不偏推論につながる非ランダム割り当て方式よりもランダム割り当ての利点は何ですか? ましょう各要素が0(治療に割り当てられていない単位)または1(治療に割り当てられた単位)である処置の割り当てのベクトルです。JASAの記事で、Angrist、Imbens、およびRubin(1996、446-47)は、場合、処理割り当てはランダムであると述べていすべての\ mathbf {c}および\ mathbf {c'}に対して、\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '}である場合、\ iotaはaすべての要素が1に等しい列ベクトル。ZZ\mathbf{Z}Z私ZiZ_icPr (Z = c)= Pr (Z = c』)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c} ι T C = ι T C ' ιc』c′\mathbf{c'}ιTc = ιTc』ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 言い換えると、処理へのm個の割り当てを含む割り当てのベクトルが、処理へのm個の割り当てを含む他のベクトルと同じである場合、割り当てZ私ZiZ_iはランダムであるという主張です。メートルmmメートルmm ただし、治療の割り当てからの潜在的な結果の独立性を確保するには、研究の各ユニットが治療への割り当ての確率が等しいことを確認するだけで十分です。そして、ほとんどの治療割り当てベクトルが選択される確率がゼロであっても、それは簡単に起こります。つまり、ランダムでない割り当てでも発生する可能性があります。 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.