タグ付けされた質問 「panel-data」

パネルデータとは、計量経済学の経時的な測定を頻繁に含む多次元データを指します。これは、生物統計学の長期データとも呼ばれます。

5
計量経済学の「変量効果モデル」は、計量経済学以外の混合モデルとどの程度正確に関係していますか?
計量経済学の「ランダム効果モデル」は、計量経済学の外の「ランダムな切片を持つ混合モデル」に対応すると考えていましたが、今はわかりません。しますか? 計量経済学では、「固定効果」や「ランダム効果」などの用語を混合モデルに関する文献とは多少異なる方法で使用しているため、悪名高い混乱が生じています。私たちは、単純な状況について考えてみましょう直線的に依存してが、測定値の異なるグループで異なる切片での:xyyyxxx yit=βxit+ui+ϵit.yit=βxit+ui+ϵit.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. ここで、各ユニット/グループは異なる時点観測されます。計量経済学者はそれを「パネルデータ」と呼びます。トンiiittt 混合モデルの用語では、を固定効果またはランダム効果(この場合はランダムインターセプト)として扱うことができます。固定として扱うことは、とをフィッティングして、平方誤差を最小化することを意味します(つまり、ダミーグループ変数を使用してOLS回帰を実行する)。それを我々はさらにその仮定として、ランダムな手段治療と合わせて最大尤度を使用しとの代わりに、各フィッティング独自にします。これは、推定値が平均値向かって縮小する「部分プーリング」効果にます。β uと I uのI〜N(U 0、σ 2 U)U 0 σ 2 U U I 、U I 、U 0uiuiu_iβ^β^\hat \betau^iu^i\hat u_iui∼N(u0,σ2u)ui∼N(u0,σu2)u_i\sim\mathcal N(u_0,\sigma^2_u)u0u0u_0σ2uσu2\sigma^2_uuiuiu_iu^iu^i\hat u_iu^0u^0\hat u_0 R formula when treating group as fixed: y ~ x + group R formula when treating group …


4
Rの標準エラークラスタリング(手動またはplmのいずれか)
標準エラーの「クラスタリング」とRでの実行方法を理解しようとしています(Stataでは簡単です)。RIでは、どちらplmかを使用するか、独自の関数を作成することに失敗しました。パッケージのdiamondsデータを使用しggplot2ます。 いずれかのダミー変数で固定効果を実行できます > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

1
混合効果モデルで変量効果の分散と相関を解釈する方法は?
皆さんがこの質問を気にしないことを願っていますが、Rでやろうとしている線形混合効果モデル出力の出力を解釈するのに助けが必要です。私は、時間予測子として週に適合したモデルを持ち、私の結果として雇用コースで得点します。スコアを数週間(時間)といくつかの固定効果、性別、人種でモデル化しました。私のモデルにはランダム効果が含まれています。分散と相関関係の意味を理解する助けが必要です。出力は次のとおりです。 Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相関は.231です。 相関関係は、週とスコアの間に正の関係があるため、解釈できますが、「23%の...」の観点からそれを言いたいと思います。 本当に感謝しています。 返信してくれた「ゲスト」とマクロに感謝します。申し訳ありませんが、返信しないため、私は会議に出ていたので、追いついています。出力とコンテキストは次のとおりです。 以下は、私が実行したLMERモデルの概要です。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random effects: …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
Calinski&Harabasz(CH)基準の許容値は何ですか?
Rとkmlパッケージを使用して縦断データをクラスター化しようとするデータ分析を行いました。私のデータには、約400の個別の軌跡が含まれています(この論文で呼ばれています)。次の図に私の結果を見ることができます。 対応する論文の 2.2章「最適なクラスター数の選択」を読んだ後、答えが得られませんでした。3つのクラスターを使用することをお勧めしますが、結果は80のCHでまだOKです。実際、CH値が何を表すかさえわかりません。 だから私の質問、Calinski&Harabasz(CH)基準の許容値は何ですか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
スプラインは予測に使用できますか?
データはプロプライエタリであるため、データの性質について具体的に説明することはできませんが、次のようなデータがあるとします。毎月、一部の人々がサービスにサインアップしています。その後、その後の各月に、それらの人々はサービスをアップグレードしたり、サービスを中断したり、サービスを拒否したりすることがあります(支払いの失敗など)データの最初のコホートについては、約2年のデータ(24か月)があります。 毎月参加する人の数は多く(100,000の範囲)、3つのことのいずれかを行う数は数千人です。ただし、個々のレベルのデータ(数百万行)を使用するのではなく、月とコホート(各コホートの各割合が毎月どの程度を占めるか)ごとに集計されたデータを使用しています。 多変量適応回帰スプライン(MARS)を使用して既存のデータをモデル化し、興味深い結果を見つけています。 ただし、これらを使用して将来を予測または予測することを心配しています。私の懸念は、将来への予測は必然的に(時間的に)サンプル空間の外側にあり、スプラインは外挿に対して不安定になる可能性があるためです。 これは正当な方法ですか?どのような懸念があり、それらに対処できますか?

2
複数の期間を含む差異モデルの差異の指定
2つの期間の差モデルの差を推定すると、同等の回帰モデルは次のようになります。 a。 Y私のトン=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ここで、TreatmentTreatmentTreatmentはダミーであり、観測が治療グループからのものである場合は1に等しい および ddd、治療後の期間内に1に等しいダミーで発生しました したがって、方程式は次の値を取ります。 対照群、治療前:αα\alpha 対照群、治療後:α+λα+λ\alpha +\lambda 治療群、治療前:α+γα+γ\alpha +\gamma 治療後の治療群: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta したがって、2期間モデルでは、差の推定値の差はδδ\deltaです。 しかし、治療前と治療後の期間が複数ある場合、に関してどうなりますか?治療の前後が1年かどうかを示すダミーを引き続き使用しますか?dtdtd_t または、各年が前処理期間に属するか後処理期間に属するかを指定せずに、代わりに年ダミーを追加しますか?このような: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} または私は(すなわち、両方含むことができ、)?yeardummy+λdtyeardummy+λdtyeardummy +\lambda d_t c。Yist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \lambda d_t …

4
「時系列分析」と「縦断的データ分析」という用語の違いは何ですか
縦断的データについて話すとき、同じ被験者/学習ユニットから繰り返し収集されたデータを参照する場合があります。したがって、同じ被験者内の観察、つまり被験者内の類似性には相関があります。 時系列データについて話すとき、一連の時間にわたって収集されたデータも参照します。これは、上記の縦断的設定と非常によく似ています。 誰かがこれらの2つの用語の間の明確な説明を提供できるかどうか疑問に思っています、関係とは何ですか、違いは何ですか?

1
適切な相関構造を持つモデルにも自己相関残差パターンが残っていますか?また、最適なモデルを選択する方法はありますか?
環境 この質問ではRを使用していますが、一般的な統計の問題に関するものです。 私は、幼虫の個体数を年に1回、8年間にわたって12箇所からサンプリングした、ガの個体数の成長率に対する死亡率(病気と寄生による死亡率)の影響を分析しています。人口増加率データは、時間の経過とともに明確だが不規則な周期的傾向を示しています。 単純な一般化線形モデルからの残差(成長率〜%disease +%parasitism + year)は、同様に明確ではあるが不規則な周期的傾向を経時的に示しました。したがって、同じ形式の一般化最小二乗モデルも、複合対称性、自己回帰プロセス次数1、自己回帰移動平均相関構造などの時間的自己相関に対処するために、適切な相関構造でデータに適合しました。 モデルはすべて同じ固定効果を含み、AICを使用して比較され、REMLによって適合されました(AICによる異なる相関構造の比較を可能にするため)。Rパッケージnlmeとgls関数を使用しています。 質問1 GLSモデルの残差は、時間に対してプロットしたときに、ほぼ同じ周期的なパターンを表示します。自己相関構造を正確に説明するモデルであっても、そのようなパターンは常に残りますか? 2番目の質問の下で、Rのいくつかの単純化された類似のデータをシミュレートしました。これは、モデル残差の時間的に自己相関するパターンを評価するために必要なメソッドの現在の理解に基づいて問題を示していますが、これは間違っていることがわかっています(回答を参照)。 質問2 考えられるすべての相関構造を持つGLSモデルをデータに適合させましたが、実際には相関構造のないGLMよりも実質的に良好な適合はありません:1つのGLSモデルだけがわずかに優れています(AICスコア= 1.8低い)より高いAIC値。ただし、これはすべてのモデルがGLSモデルが明らかにはるかに優れているMLではなくREMLによって適合されている場合にのみ当てはまりますが、統計書から、REMLを使用して異なる相関構造と同じ固定効果を持つモデルを比較する必要があることを理解していますここでは詳しく説明しません。 明らかに時間的に自己相関するデータの性質を考えると、単純なGLMよりも適度に優れたモデルがない場合、適切な方法を使用していると仮定して、推論に使用するモデルを決定する最も適切な方法は何ですか(最終的に使用したい異なる変数の組み合わせを比較するAIC)? 適切な相関構造を持つモデルと持たないモデルの残差パターンを調査するQ1「シミュレーション」 「時間」の周期的効果と「x」の正の線形効果を持つシミュレートされた応答変数を生成します。 time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) yは、ランダムな変動を伴う「時間」にわたって周期的な傾向を表示する必要があります。 plot(time,y) そして、ランダムな変動を伴う「x」との正の線形関係: plot(x,y) 「y〜時間+ x」の単純な線形加法モデルを作成します。 require(nlme) m1 <- gls(y ~ time + x, method="REML") モデルは、予想されるように、「時間」に対してプロットされると、残差に明確な周期的パターンを表示します。 plot(time, m1$residuals) …

1
縦カウントデータの分析方法:GLMMでの時間的自己相関の説明
統計の達人とRプログラミングウィザードの皆さん、 私は、動物の捕獲物を環境条件とその日の関数としてモデリングすることに興味があります。別の研究の一環として、私は3年間で約160日間のキャプチャのカウントを持っています。これらの各日には、気温、降雨、風速、相対湿度などがあります。データは同じ5つのプロットから繰り返し収集されたため、プロットをランダム効果として使用します。 私の理解では、nlmeは残差の時間的自己相関を簡単に説明できますが、lme4(自己相関を処理できない?)のような非ガウスリンク関数を処理しません。現在、log(count)でRのnlmeパッケージを使用するとうまくいくと思います。だから今の私の解決策は次のようなものを実行することです: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random = ~1|plot, correlation = corARMA(p = 1, q = 1, form = ~DOY|plot), data = Data) ここで、DOYは年間通算日です。最終モデルにはより多くの相互作用があるかもしれませんが、これは私の一般的な考えです。また、分散構造を次のようなものでさらにモデル化することもできます。 weights = v1Pow ポアソン混合モデル回帰または何かを処理するより良い方法があるかどうかはわかりませんか?KedemとFokianosによる「時系列分析の回帰モデル」の第4章で数学的な議論を見つけました。現時点では、特にアプリケーション(Rでコーディング)で私を少し超えていました。また、ZuurらでMCMCソリューションを見ました。(winBUGSまたはJAGを使用して)BUGS言語のMixed Effects Modelsブック(Chp 23)。それが私の最善の選択肢ですか?これを処理する簡単なMCMCパッケージがRにありますか?私はGAMMやGEEの手法にあまり詳しくありませんが、人々がより良い洞察を提供してくれると思ったら、これらの可能性を喜んで探ります。私の主な目的は、与えられた環境条件で動物の捕獲を予測するモデルを作成することです。第二に、私は動物がその活動の観点からどのような反応をするかを説明したいと思います。 (哲学的に)進むための最良の方法、Rでこれをコーディングする方法、またはBUGSでコーディングする方法についての考えをいただければ幸いです。私はRとBUGS(winBUGS)にはかなり慣れていませんが、学んでいます。これは、時間的自己相関に対処することを試みた最初の例でもあります。 ありがとう、ダン

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
「混合効果モデリング」と「潜在成長モデリング」の違いは何ですか?
私は混合効果モデル(MEM)にかなり精通していますが、最近、同僚が潜在成長モデル(LGM)と比較する方法を尋ねました。私は少しグーグルをしましたが、LGMは構造方程式モデリングのバリアントであり、少なくとも1つのランダム効果の各レベル内で反復測定が得られる状況に適用されるため、時間はモデルの固定効果になります。それ以外の場合、MEMとLGMはかなり似ているように見えます(たとえば、両方とも異なる共分散構造の探索などが可能です)。 LGMは概念的にはMEMの特殊なケースであるというのは正しいのでしょうか、それとも、異なるタイプの理論を評価する仮定や能力に関して2つのアプローチに違いがあるのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.