タグ付けされた質問 「panel-data」

パネルデータとは、計量経済学の経時的な測定を頻繁に含む多次元データを指します。これは、生物統計学の長期データとも呼ばれます。

4
回帰発展途上国:GDP-GrowthまたはGDP
私の修士論文では、開発途上国が停滞している理由を基本的に知りたいと思います。理論的な側面の次に、回帰も行いたいと思います。国家元首の在任期間、平均余命、労働時間制限、成人の識字率、人口の増加、および5年間のいくつかの(その他の)制度的変数など、多くの独立変数の従属変数としてGDPまたはGDP成長を後退させたいと思います。私の質問は次のとおりです。独立変数でGDP成長(%)を後退させる方が理にかなっていますか、それとも実際のGDP値(たとえば、$)を使用する必要がありますか?

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

1
性差別のためのハウスマンテストの使い方は?
スウェーデンの大企業の男女の男女の賃金格差を推定して、性差別の有無をテストしています。Hausmanテストは、個々の固定効果がランダムであるため、プールされたOLSまたはランダム効果に依存することができないというnullを拒否します。問題は、時間の経過とともに変化しないため、女性ダミーを固定効果回帰に維持できないことです。 差別をテストするために代わりにハウスマンテストを使用するよう提案されましたが、これをどのように使用して男性と女性の労働者の収入の差を見つける必要があるのか​​実際にはわかりません。多分ここの誰かがこのアドバイスをもう少しよく理解してくれることを望んでいました。もしそうなら、私にこれについていくつかの光を当ててもらえますか?

2
時変処理による傾向スコアマッチング
基本的な傾向スコアマッチング手順は、断面データ(つまり、特定の時点で収集されたデータ)で機能します。一般的なpsmatch2コマンドは、観測値が処理グループまたはコントロールグループに属していることを示すダミー変数を使用します。 ただし、私のデータセットでは、このインジケーター関数は時変です。データは次のようになります。個人を特定し、12年間追跡します。この期間のある時点で、個人は治療を受ける可能性があるため、「コントロールから治療グループに移る」。これは、個人ごとにいつでも発生する可能性があることに注意してください(sic!)。 その上、その後の私の分析は時間に依存します:個人が治療されている瞬間から、次の年(シック!)についてのみATTを推定したいと思います。したがって、治療を開始してから1年後には、治療を受けた個人についてはもう気になりません。 psmatch2それに関しては非常に制限的なようです。それを行う方法について何か可能性がありますか?多分それを可能にするマッチング方法もあります。 PS:フォーラムには同様の質問が1つありますが、この問題の解決には役立ちませんでした。

1
固定効果による差異の差異
DDモデルに固定効果があることに関して2つの質問があります。 異なる時期に発生する治療を受けています(例:2001、2005など)。DDモデルに適合させたいので、治療年数は年々「0」を治療時間として標準化しています。治療年の不均一性を制御するために、私は真の年の固定効果を含めました。 y私トン= β0+ β1治療+ β2+ βの後3(トリート ⋅ 後)+ η(年固定効果)+ γC私トン+ ϵ私トンyit=β0+β1Treat+β2After+β3(Treat ⋅ After)+η(Year Fixed Effects)+γCit+ϵity_{it} = \beta_0 + \beta_1 \text{Treat} + \beta_2 \text{After} + \beta_3 (\text{Treat $\cdot$ After}) + \eta (\text{Year Fixed Effects})+ \gamma C_{it} + \epsilon_{it} 質問1:このモデルに問題はありますか? 質問2:このDDモデルに時定数の固定効果を含めることに問題はありますか?たとえば、iレベルの固定効果()および/またはi固定効果のグループ指標(たとえば、男性/女性または人種)を含めるとどうなりますか?DDが時定数i-lvl FEをキャンセルすることに気づきましたが、ここに再度含めるとどうなりますか?α私αi\alpha_i

1
パネルデータの仕様
データセットの最適な仕様を見つけようとしています。 説明された変数について、3つの同様のパネルデータモデルで経済成長の意味でポーランドの特別経済区の有効性を調査しようとしています。a)登録失業率b)1人あたりのGDP c)1人あたりの総固定資本形成。データはNUTS3サブリージョン用です。説明変数は次のとおりです年のサブリージョンにSEZが存在する場合は0-1 、いくつかの経済変数。年間の頻度、データセットは66のサブリージョンの2004〜2012です。ttt 固定効果とランダム効果を試しました。今のところ、私は重要性と理論的に正しい兆候があるため、FEを選択しました。しかし、私がそれを当たり前のことと見なすのを妨げるいくつかの問題があります: 自己相関と相互相関をテストする方法は? Stataでエラー項の分布をテストする方法がわかりません。さらに、それが正常に分布していない場合は、あまり気にする必要がありますか? 文献からわかるように、説明変数と-1または1に近い誤差項の間の相関係数の値は、実際には悪くありません。私の場合は、ご覧のとおり、ほぼ-1です。 混合モデルは私のデータセットに適していますか? 失業率を説明するモデルの結果を添付します。 コード: xtreg st_bezr sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2, fe Fixed-effects (within) regression Number of obs = 594 Group variable: id Number of groups = 66 R-sq: within = 0.4427 Obs per group: min = 9 between = 0.3479 avg …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
バイナリの結果で長期データを視覚化する
数値の結果を持つ長期データの場合、スパゲッティプロットを使用してデータを視覚化できます。たとえば、次のようなもの(UCLA Statsサイトから取得): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance, n=10) interaction.plot(tolerance$time, tolerance$id, tolerance$tolerance, xlab="time", ylab="Tolerance", legend=F) しかし、私の結果がバイナリ0または1の場合はどうなりますか?たとえば、Rの「ohio」データでは、バイナリの「resp」変数が呼吸器疾患の存在を示しています。 library(geepack) ohio2 <- ohio[2049:2148,] head(ohio2, n=12) resp id age smoke 2049 1 512 -2 1 2050 0 512 -1 1 2051 0 512 0 1 2052 0 512 1 1 2053 1 513 -2 1 2054 0 …

3
Rのパネルデータのユニットルートテスト
私はplmパッケージを持っており、いくつかの変数に対してユニットルートテストを実行したいと考えています。次のエラーが発生します。 > purtest(data$tot.emp) Error in data.frame(baldwin = c(59870, 61259, 60397, 58919, 57856, 57227, : arguments imply differing number of rows: 14, 19, 11, 12, 1, 20, 18, 10, 13 私のパネルのバランスが悪いため、このエラーが発生していると思います。2つの質問: パネルのユニットルートテスト(Levin、Lin、Chu(2002)、Im、Pesaran、Shin(2003)など)を使用して、バランスの取れていないパネルを作成できますか? もしそうなら、それはRで実装されていますか?

1
独立変数が自己相関している場合の標準誤差の修正
独立変数に相関関係がある場合の標準誤差の修正方法について質問があります。単純な時系列設定では、一連のラグを持つNewey-West共分散行列を使用できます。これにより、残差の相関の問題が処理されます。パネルデータ設定では何をしますか?時間の経過とともに会社を観察する状況を想像してみてください。 Y私、t= A + B Δ X私、t+ ϵ私、tYi,t=a+bΔXi,t+ϵi,t Y_{i,t} = a + b\Delta{X_{i,t}} + \epsilon_{i,t} ここで、。iとtで標準エラーをクラスタリングすると、この問題が解決するようです。私は正しいですか?Δ X私、t= X私、t− Xi 、t − nΔXi,t=Xi,t−Xi,t−n\Delta{X_{i,t}} = X_{i,t} - X_{i,t-n}私iittt

1
線形回帰の勾配を他の回帰モデルの独立変数または従属変数として使用できますか?
私には100人の患者がいて、各患者には10件の長期的な血清クレアチニン測定があります。推定糸球体濾過率(eGFR)は、性別、年齢、血清クレアチニンを含むMDRD式から計算されました。eGFRは従属変数であり、時間は各患者の線形回帰の独立変数です。 線形回帰は「独立したXの」仮定に違反し、代わりに線形混合モデルを使用する必要がありますか? 各患者から推定されたeGFR勾配(測定値ではなく不確実性を伴う推定値)(各患者の線形回帰または変量効果混合モデル[混合モデルで各患者の勾配を推定する方法?])は、他の回帰モデルの独立変数または従属変数? ありがとうございました。

3
RおよびWINBUGSまたはJAGSの縦モデル
私はRを使用して、主にvia lmerとnlmeパッケージのいくつかの縦断モデルに適合させようとしました。ただし、共分散行列の従属関係モデルや因子分析モデルなど、多くの標準モデルが不足しているようです。これらのモデルはSASですぐに利用できます。 誰かがRでの仕事に他のパッケージを勧めますか?モデリングの柔軟性が高まっている限り、常連客やベイジアンの世界で仕事をしていても気にしません。私はWINBUGS / JAGSでそれを行うことにも興味があります。
8 r  jags  panel-data 

2
縦断データのあるランダムフォレスト
複数の個人の多くの測定値がありますが、ランダムフォレストモデルを実行するときに、その繰り返し測定構造をどのように説明するかわかりません。 ランダムフォレストモデルを使用して、縦断的なデータの基になるデータ構造を説明する方法はありますか? これも必要ですか?-それはあるべきだと私には思われます... 特にでこれを実行できるようにしたいと思いRます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.