タグ付けされた質問 「panel-data」

パネルデータとは、計量経済学の経時的な測定を頻繁に含む多次元データを指します。これは、生物統計学の長期データとも呼ばれます。


2
負けが繰り返された後、人々が脱落したりベットを減らしたりするかどうかをテストする
私は、各ラウンドの後に5ラウンド以上の賭けで損耗を伴う一連の勝ち負けの賭けに関するデータを持っています。次のようなディシジョンツリーを使用してデータを表示しています。 ツリーの上部にあるノードは、勝ちの賭けをしているノードであり、ツリーの下部にあるノードは、負けの賭けの実行を持っています。(a)各ノードでの消耗(b)各ノードでの平均ベットサイズの変化を確認したいと思います。前のノードからの各ノードの消耗率と生存率(確率が50%の場合に各ノードで予想される人数を使用)を調べています。たとえば、確率が各ノードで50%の場合、開始された1000のうち、約500人が2番目のノードWとLにいるはずです。仮説は(a)損耗率賭け(b)は、賭けのサイズが敗者の後に減少し、勝者の後に引き上げられることを意味します。 最初に、これを非常に単純な一変量設定で実行したいだけです。50人が脱落した場合、ノードWWからノードWWWへの平均ベットサイズの変化が統計的に有意であることを示すために、どのようにt検定を実行できますか?これが正しいアプローチであるかどうかはわかりません。後続の各ベットは独立していますが、敗者の後に人々は脱落しているため、サンプルは一致しません。同じクラスが一連の試験を次々と受験し、誰も脱落することのない場合であれば、適切なt検定の実行方法は理解できますが、これは少し異なると思います。 これどうやってするの?また、結果が少数の顧客によって歪められている場合、どうすれば上位5%と下位5%を取り除くことができますか?累積賭け金が最も高い顧客をベット1-3から削除するだけですか? 図が生成された元のデータがあるので、各ノードに平均値、標準誤差、標準誤差などがあります。

3
反復測定構造方程式モデリング
臨床リハビリデータのデータセットを分析する必要があります。定量化された「インプット」(治療の量)と健康状態の変化との間の仮説に基づく関係に興味があります。データセットは比較的小さい(n〜70)が、両方の時間的変化を反映するデータを繰り返し使用しています。私はRの非線形混合効果モデリングに精通していますが、ここで入力と出力の間の潜在的な「因果関係」関係に興味があり、SEMの反復測定アプリケーションを検討しています RのSEMパッケージ(sam、lavaan、openmx?)のどれが繰り返し測定データに特に適しているか、特に教科書の推奨事項(フィールドの「Pinheiro and Bates」はありますか?)に関するアドバイスをいただければ幸いです。 。

2
縦断的データ:時系列、繰り返し測定、その他
平易な英語で: 私は重回帰またはANOVAモデルを持っていますが、各個人の応答変数は時間の曲線関数です。 右側の変数のどれが曲線の形状または垂直オフセットの大きな違いの原因であるかをどのようにして知ることができますか? これは時系列の問題、反復測定の問題、それともまったく別の問題ですか? そのようなデータを分析するためのベストプラクティスは何ですか(できればでR、他のソフトウェアを使用することもできます)? より正確に言えば: レッツは、私がモデル持っていると言うが、Y I jは、kは、実際にデータ-のシリーズです数値変数として記録された、多くの時点tで同じ個体kから収集された点。データをプロットすると、個々のy i j k tyijk=β0+β1xi+β2xj+β3xixj+ϵkyijk=β0+β1xi+β2xj+β3xixj+ϵky_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kyijkyijky_{ijk}kkktttyijktyijkty_{ijkt}垂直オフセット、形状、または周波数(循環の場合)が共変量に大きく依存する可能性がある時間の2次関数または循環関数です。共変量は時間の経過とともに変化しません。つまり、データ収集期間中、個体の体重または治療グループは一定です。 これまでのところ、私は次のRアプローチを試しました: マノバ Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...ここYTで、列は時間ポイントである行列です。この例では10個ですが、実際のデータでははるかに多くなります。 問題:これは時間を要因として扱いますが、時間点は各個人に対して正確に一致しません。さらに、サンプルサイズに対してそれらの多くが存在するため、モデルは飽和します。時間の経過に伴う応答変数の形状は無視されているようです。 混合モデル(PinheiroとBatesと同様、SとS-Plusの混合効果モデル) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ... IDデータを個人別にグループ化する要素です。この例では、応答は時間とともに循環しますが、代わりに2次項や時間の他の関数が存在する可能性があります。 問題:各時間項が必要かどうか(特に2次項の場合)、どの共変量の影響を受けるかはわかりません。 でstepAIC()、それらを選択するための良い方法は? …

2
縦断的研究では、追跡調査で失った個人に対して、時間2に測定された結果Yを推定する必要がありますか?
人のサンプルで2回ポイントで繰り返し測定しています。時間1には1万8千人、時間2には1万3千人がいます(5000人がフォローアップで失われました)。 時間1に測定された一連の予測子Xについて、時間2に測定された結果Y(および時間1に結果を測定できない)を後退させたい。すべての変数に欠落データがある。そのほとんどは比較的ランダムに表示されます。または、欠落は観測されたデータでよく説明されているようです。ただし、結果Yの欠落の大部分は、フォローアップの損失が原因です。私は複数の代入(R :: mice)を使用し、完全なデータセットを使用してXの値を代入しますが、Yの代入に関する2つの矛盾するアドバイスを受け取りました。 1)18kの完全なサンプルでXとV(V =有用な補助変数)からYを代入します。 2)フォローアップで失われた個人にYを負わせないでください(したがって、後続の回帰モデリングからそれらを削除します)。 前者は情報が情報であるため理にかなっています。しかし、後者はより直感的な意味でも理にかなっています-Y〜X + Vに基づいて5000人の結果を推測し、方向を変えてY〜Xを推定するのは間違っているようです。 どちらが(もっと)正しいですか? この前の質問は役に立ちますが、フォローアップの損失による欠落に直接対処していません(おそらく答えは同じですが、わかりません)。 結果変数の多重代入

1
固定効果モデルで省略されたダミー変数を処理する方法は?
私のハウスマン試験値を示しているので、私は私のパネルデータの固定効果モデル(9年、1000+ OBS)を使用しています。私の会社が含む業界のダミー変数を追加すると、それらは常に省略されます。DV(開示指数)に関しては、さまざまな業界グループの間で大きな違いがあることを知っています。しかし、Stataを使用している場合、モデルでそれらを取得できません。(Pr &gt; χ2)&lt; 0.05(Pr&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 これを解決する方法はありますか?そしてなぜそれらは省略されているのですか?

2
縦断的研究で平均治療効果を推定する最良の方法は何ですか?
縦断的研究では、ユニット結果が時点で繰り返し測定され、合計固定測定機会があります(固定=ユニットの測定は同時に行われます)。YitYitY_{it}iiitttmmm 単位は、治療、または対照群いずれかにランダムに割り当てられます。治療の平均的な効果を推定してテストしたいと思います。つまり、時間と個人全体で期待値が得られます。この目的のために、固定された機会のマルチレベル(混合効果)モデルの使用を検討します。G=1G=1G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} インターセプト、、ユニットにわたってランダム切片、及び残差を。αα\alphaββ\betaATEATEATEuuueee 今、私は代替モデルを検討しています Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m \kappa_j d_{ij} + \sum_{j=1}^m \gamma_j d_{ij} G_i + \tilde{u}_{0i} + \tilde{e}_{it} これは固定効果が含ま都度のためのダミー場合と他。さらに、このモデルには、パラメータを使用した治療と時間の相互作用が含まれています。したがって、このモデルでは、の影響が時間の経過とともに異なる可能性があることを考慮しています。これ自体は参考情報ですが、の不均一性が考慮されるため、パラメーターの推定の精度も向上するはずです。κjκj\kappa_jtttdt=1dt=1d_t=1j=tj=tj=t000γγ\gammaGGGYYY ただし、このモデルでは、係数はと等しくないようです。代わりに、最初にATEを表します()。推定だからよりも効率的かもしれが、それは表していませんもう。β~β~\tilde{\beta}ATEATEATEt=1t=1t=1β~β~\tilde{\beta}ββ\betaATEATEATE 私の質問は: この縦断的研究デザインで治療効果を推定する最良の方法は何ですか? モデル1を使用する必要がありますか、それとも(おそらくより効率的な)モデル2を使用する方法はありますか? にの解釈との機会固有の偏差を持たせる方法はありますか(たとえば、エフェクトコーディングを使用して)?β~β~\tilde{\beta}ATEATEATEγγ\gamma

6
パネルデータを使用してベクトル自己回帰とインパルス応答関数を推定する方法
私は、77四半期にわたって33人の個人のパネルデータに基づいて、ベクトル自動回帰(VAR)とインパルス応答関数(IRF)の推定に取り組んでいます。このタイプの状況はどのように分析する必要がありますか?この目的のためにどのようなアルゴリズムが存在しますか?私はこれらの分析をRで行うことを好みます。そのため、Rコードまたはこの目的のために設計されたパッケージに詳しい人が示唆できるとしたら、それは特に役立ちます。

2
縦断データによるSVM回帰
患者あたり約500の変数があり、各変数には1つの連続値があり、3つの異なる時点(2か月後と1年後)で測定されます。回帰により、新しい患者の治療結果を予測したいと思います。 そのような長期データでSVM回帰を使用することは可能ですか?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
パネル研究からの時系列の欠落カウントデータの複数の代入
私は、パネルデータスタディから欠落しているデータの帰属に対処する問題に取り組んでいます(「パネルデータスタディ」を正しく使用しているかどうかはわかりません-今日学んだとおりです)。2003年の総死亡数データが​​あります。 2009年まで、8つの異なる地区と4つの年齢グループのすべての月(男性と女性)。 データフレームは次のようになります。 District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ …

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
繰り返し測定された独立変数による重回帰?
設計と仮説:wellbeing時間1と時間2でA測定しました。因子(時間1で測定し、経時的に安定した因子であると想定)が因子B(時間2で測定)の有意な予測子であるかどうかを確認します。またwellbeing、現在または過去のが貢献することも期待していBます。 質問:wellbeing同時予測子として(同じ機器を使用して)両方の時点で測定されたものを使用して重回帰を行うことは適切ですか?-予測子間に有意な相関関係が存在しますが、多重共線性診断は正常に見えました... 縦断的設計をうまく活用する仮説をテストするためのより良い方法はありますか? どうもありがとう!

1
DDD(TD、トリプル差分)推定量に関する3つの関連する質問
ジェフウォルドリッジの計量経済分析(第2版)では、州Bが高齢者を対象としたヘルスケアポリシーの変更を実施する2つの期間のケースについて、151ページの「 DDD(difference-in-differences)」推定式の式を導出しています。。 まず、式(6.56)に第4項がない理由に戸惑い (y¯A,N,2−y¯A,N,1),(y¯A,N,2−y¯A,N,1),(\bar y_{A,N,2} - \bar y_{A,N,1}), これは、ポリシーを変更しない州(グループA)の非高齢者(グループN)の平均健康転帰の変更に対応します。 彼はこの方法を使用しているとGruber(1994)を引用していますが、その論文の表3の私の読解は、2つのDDの違いであるため、4番目の項でそれを得る必要があります(そうでない場合、代わりにが得られますちょうど)。δ3+δ0δ3+δ0\delta_3 + \delta_0δ3δ3\delta_3 私はすでに2枚目の印刷の正誤表を確認しましたが、これは表示されなかったので、ここで何か不足しているに違いありません。また、彼の中に表示される2007 NBERの講義ノートと同じ形式で。 2つ目の質問は、期間が3つ以上ある場合、JWは次のような回帰を提案することです。 状態のタイプ(AまたはB)の完全なダミーセット 年齢カテゴリ(EまたはN)のフルセットのダミー すべての期間のダミー 前の3つの間のペアワイズ相互作用 ポリシーの対象となるグループおよび期間に対して1の値を取るポリシーダミー。これは、対象のDDDパラメータです。 JWは「ダミーの完全なセット」と「すべての期間」を書いていますが、ダミー変数トラップに陥らずにそれをどのように行うことができるかはわかりません。タイプAの状態1と非高齢者の状態(グループN)を削除するのは自然に思えるかもしれませんが、期間が10あり、治療は期間5で行われると言います。可変トラップ?この選択はDDDパラメーターとその解釈を変更するようですが、どれが最適かはわかりません。ここだ別の質問のベースラインとして機能し、単一の事前期間がありますので、自然な選択があります。 最後に、単純なDDの一般的な傾向と同様に、DDDを特定する仮定は正確に何ですか?複数の期間でテスト/強化する方法はありますか? Myoung-jae Leeの政策、プログラム、および治療効果に関するミクロ計量経済学では、条件(JWの例に変換)は次のようにリストされています。 δ3+E[u1,2−u0,1|E=1,B=1]−E[u0,2−u0,1|E=1,A=1]−E[u0,2−u0,1|N=1,B=1]−E[u0,2−u0,1|N=−=1,A=1],δ3+E[u1,2−u0,1|E=1,B=1]−E[u0,2−u0,1|E=1,A=1]−E[u0,2−u0,1|N=1,B=1]−E[u0,2−u0,1|N=−=1,A=1], \delta_3 + E[u_{1,2} - u_{0,1}\vert E=1,B=1]-E[u_{0,2} - u_{0,1}\vert E=1,A=1]-{E[u_{0,2} - u_{0,1}\vert N=1,B=1]-E[u_{0,2} - u_{0,1}\vert N=-=1,A=1]}, 最初の添え字は潜在的な結果(1は処理済み、そうでない場合は0)をインデックス付けし、2番目は時間(postは2、preは1)です。私はこれを、他の場所にいる高齢者と比較した治療状態の高齢者の観察不能量の経時変化が類似している限り、非高齢者の同じ量に等しいと解釈すると、DDDは正しい効果を識別します。これは一般的な傾向よりも弱いようです。DDDには十分ですが、必須ではありません。これは正しいです?

1
パネルデータ:プールされたOLS対RE対FE効果
FEと比較したPooled-OLSおよびRE Estimatorの有用性について、いくつかの議論がありました。 つまり、私が知る限り、プールされたOLS推定は、単にPanelデータに対して実行されるOLS手法です。したがって、個々に固有の影響はすべて完全に無視されます。そのため、誤差項の直交性などの基本的な仮定の多くに違反しています。 REは、ランダムであると想定されるモデルに個別の仕様インターセプトを実装することによってこの問題を解決します。これは、モデルの完全な外来性を意味します。これはHausmann-Testでテストできます。 ほとんどすべてのモデルにはいくつかの内因性の問題があるため、FE-Estimationは最良の選択であり、最良の一貫した推定を提供しますが、個々の特定のパラメーターは失われます。 私が自問している質問は、プールされたOLSまたはランダム効果を使用することが実際に意味があるのはいつかということです。プールされたOLSは非常に多くの仮定に違反しているため、まったく意味がありません。また、RE-Estimatorの強力な外因性は基本的に与えられないので、いつそれが実際に役立つのでしょうか? これに加えて、すべてのモデルで、自己相関は考慮できませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.