タグ付けされた質問 「stata」

統計ソフトウェアパッケージ。このタグは、(a)質問の重要な部分または予想される回答のいずれかとしてStataを含む、トピックに関する質問に使用します。(b)は、Stataの使い方だけではありません。

4
ゼロ切り捨て負の二項GEEのR / Stataパッケージ?
これは私の最初の投稿です。このコミュニティに本当に感謝しています。 ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。 私が除外した機能/コマンド: R Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても) Rのglm.nb()は、異なる相関構造を許可しません VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。 スタタ データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。 また、さまざまな方法論的/哲学的理由からGLMMを除外しました。 今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。 RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。 あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。 -ケーシー

3
Mundlak固定効果手順は、ダミーを使用したロジスティック回帰に適用できますか?
8000個のクラスターと400万個の観測値を含むデータセットがあります。残念ながら、統計データであるStataは、ロジスティック回帰にパネルデータ関数を使用すると、実行速度がかなり遅くなりxtlogitます。 ただし、非パネルlogit機能を使用すると、結果がより早く表示されます。そのためlogit、固定効果を説明する変更されたデータを使用することでメリットが得られる場合があります。 この手順は「Mundlak固定効果手順」(Mundlak、Y. 1978. Pooling of Time-Series and Cross-Section Data。Econometrica、46(1)、69-85。) Antonakis、J.、Bendahan、S.、Jacquart、P。、およびLalive、R.(2010)の論文で、この手順の直感的な説明を見つけました。因果関係の主張について:レビューと推奨事項。リーダーシップクォータリー、21(6)。1086-1120。私は引用する: 固定効果の省略の問題を回避し、レベル2変数を含める方法の1つは、推定モデルにすべてのレベル1共変量のクラスター平均を含めることです(Mundlak、1978)。クラスター平均は、回帰変数として含めるか、レベル1の共変量から差し引く(クラスター平均の中心化)ことができます。クラスター平均はクラスター内で不変で(クラスター間で異なる)、固定効果が含まれているかのようにレベル1パラメーターの一貫した推定を可能にします(Rabe-Hesketh&Skrondal、2008を参照)。 したがって、クラスター平均のセンタリングは、私の計算上の問題を解決するのに理想的かつ実用的と思われます。ただし、これらの論文は線形回帰(OLS)に向けられているようです。 このクラスター平均センタリングの方法は、固定効果の「複製」バイナリロジスティック回帰にも適用できますか? 同じ答えになるはずのより技術的な質問はxtlogit depvar indepvars, fe、データlogit depvar indepvarsセットBがデータセットAのクラスター平均中心バージョンであるときに、データセットA とデータセットBが等しいかどうかです。 このクラスター平均のセンタリングで私が見つけた追加の難点は、ダミーに対処する方法です。ダミーは0または1であるため、ランダム回帰と固定効果回帰では同一ですか?それらは「中心」にすべきではありませんか?

1
Stataでインストルメント化された相互作用項を使用してインストルメンタル変数回帰を行う方法は?
Stata構文に少し問題があります。次の回帰を行う必要があります。 y=ax+bz+c(xz)+ey=ax+bz+c(xz)+ey = ax + bz + c(xz) + e ここで、とzの両方が計測され、相互作用項x zは計測されたxとzの値を使用します。xxxzzzxzxzxzxxxzzz とzの予測値を生成し、それらを回帰変数として使用するだけでは、誤った標準誤差が生じます。xxxzzz 編集:また、1つの変数のみが計測され、この1つの計測変数が相互作用項にある状態で、同様の回帰を行う必要があります。

3
マルチレベルモデリングのための例示的なデータセットと分析
最近、マルチレベルモデリングの入門コースを受講しました。使用したデータセットと例のほとんどは、社会科学からのものでした。私は、生物統計学部門で2週間のインターンシップを受けました。そこでは、病院間および5年以上の両方で、死亡率が高い緊急状態の患者の転帰の病院レベルでの変動に関するプロジェクトを開始したいと考えています。期間。私は来週インターンシップを始めていますが、同様の分析(できればR、StataまたはMLwiNを使用)が行われた書籍またはオンラインリソース、できれば読者にデータセットを提供するものを見つけることを望んでいました。どんなリンクでも大歓迎です。 編集:私は、患者の院内ケアのすべての記録された側面を詳述するデータセットで作業します。関心の主な結果は、入院後30日以内の死亡です。

1
ネットワークのメタ分析に最適な方法はどれですか?
現在、ネットワークのメタ分析または混合治療の比較を実行するためのいくつかの異なるアプローチがあります。 最も一般的に使用され、アクセス可能なものは、おそらく次のとおりです。 ベイジアンフレームワークで: WinBUGSの処理ごとの相互作用アプローチ(例、Jackson et al); WinBUGSでの階層的な腕ベースのベイズモデリング(たとえば、Zhao et al); 階層的なコントラストに基づく(すなわち、ノード分割)WinBUGS伴うまたは介してのいずれかでベイジアンモデリング、gemtc及びrjagsR(例えばディアスら若しくはバンValkenhoefら)。 WinBUGSに統合されたネストされたラプラス近似(INLA)(例えば、Sauter et al); 常連主義の枠組みで: SASの要因分散分析(例:Piepho); SASでのマルチレベルネットワークメタ分析(例:Greco et al); mvmetaStataまたはRでの多変量メタ回帰(例、White et al); R lmeとのネットワークメタ分析netmeta(例:Lumley、ただし2群試験に限定、またはRuckerら)。 私の質問は、単純です:それらはほぼ同等ですか、またはほとんどの場合に一次分析に好ましいものがありますか(したがって、他のものを補助分析に予約します)? 更新 時間の経過とともに、ネットワークメタ分析の方法に関するいくつかの比較分析が行われてきました。 カーリンBP、ホンH、シャムヤンTA、セイントF、ケインRL。複数の治療を比較するためのベイジアンアプローチとフリークエンティストアプローチの比較に関する事例研究。Healthcare Research and Quality(米国)の代理店。2013。

3
遅延DVを計測変数として使用する理由
私は計量経済学者ではなく、理解に苦労しているいくつかのデータ分析コードを継承しました。1つのモデルは、次のStataコマンドでインストルメンタル変数の回帰を実行します ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) このデータセットは、この一連の変数の複数の順次観測を含むパネルです。 このコードがDVの遅れた値を計測器として使用するのはなぜですか?私が理解しているように(古い教科書を掘り下げることから)、リグレッサがエラー項と相関しているために問題がある場合、IV推定が使用されます。ただし、DVのラグを楽器として選択することについては言及されていません。 コードのこの行へのコメントは「因果関係」について述べています。ここで何が目的であったかを理解するための助けがあれば、大歓迎です。

1
パネル/縦断データの予測評価指標
月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。n=n=n=T=T=T= モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。R2R2R^2 私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。 concordTJ SteichenとNJ CoxによるStataコマンドを知っていby()ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。 オプションがあるハレルの(R.ニューソンによって計算さ れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいcccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか? これまでに見つかった便利なもの: スライド林のコンコーダンス相関係数の反復測定バージョンに

2
コミュニティごとに個別の回帰を実行する必要がありますか、それともコミュニティを単に集約モデルの制御変数にできますか?
DVとして連続資産インデックス変数を使用してOLSモデルを実行しています。私のデータは、地理的に近い3つの類似したコミュニティから集約されています。それにもかかわらず、コミュニティを制御変数として使用することが重要だと思いました。結局のところ、コミュニティは1%レベルで有意です(tスコアは-4.52)。コミュニティは、3つの異なるコミュニティのうちの1つに対して、1,2,3としてコード化された名義/カテゴリ変数です。 私の質問は、この重要度の高さは、集合体としてではなく、コミュニティに対して個別に回帰を行うべきであることを意味するかどうかです。それ以外の場合は、コミュニティを制御変数として使用して、本質的にそうしていますか?

1
クラスター分析で変数に重みを割り当てる
クラスター分析で変数に異なる重みを割り当てたいのですが、私のプログラム(Stata)にはこのオプションがないようです。そのため、手動で行う必要があります。 4つの変数A、B、C、Dを想像してください。これらの変数の重みは w(A)=50% w(B)=25% w(C)=10% w(D)=15% 次の2つの方法のいずれかで実際にうまくいくかどうか疑問に思っています。 最初に、すべての変数を標準化します(たとえば、範囲で)。次に、各標準化変数に重みを掛けます。次に、クラスター分析を行います。 すべての変数に重みを掛けて、後で標準化します。次に、クラスター分析を行います。 それとも両方のアイデアは完全にナンセンスですか? [編集] 使用したいクラスタリングアルゴリズム(3種類を試してみます)は、k平均、加重平均リンケージ、および平均リンケージです。加重平均リンケージを使用して、後でk-meansにプラグインするクラスターの適切な数を決定する予定です。
11 clustering  stata 

2
クラスターレベルまたは個別レベルでブートストラップする必要がありますか?
私は病院に入れ子にされた患者の生存モデルを持っています。これには病院のランダム効果が含まれます。ランダム効果はガンマ分布であり、私はこの用語の「関連性」を簡単に理解できる尺度で報告しようとしています。 中央ハザード比(中央値オッズ比に少し似ています)を使用する次の参照を見つけ、これを計算しました。 Bengtsson T、Dribe M:歴史的方法43:15、2010 ただし、ここで、ブートストラップを使用してこの推定に関連する不確実性を報告したいと思います。データは生存データであるため、患者ごとに複数の観測値があり、病院ごとに複数の患者があります。再サンプリング時に患者の観察をクラスタリングする必要があることは明らかです。しかし、病院をクラスタ化する必要があるかどうかもわかりません(つまり、患者ではなく病院をリサンプルしますか? 答えが関心のあるパラメーターに依存するかどうか疑問に思っています。したがって、ターゲットが病院レベルではなく患者レベルで関連性のあるものである場合、結果は異なりますか? それが役立つ場合に備えて、以下のstataコードをリストしました。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
「Stata」または「R」の回帰不連続設計のグラフ
LeeとLemieux(p。31、2009)は、研究者に、回帰不連続設計分析(RDD)を実行しながらグラフを提示することを提案しています。彼らは以下の手順を提案します: 「...帯域幅がいくつかあり、カットオフ値の左側と右側にそれぞれいくつかのビンと K_1がある場合、アイデアはビン(b_k、b_ {k + 1} ]、k = 1、。。。、K = K_0 + K_1、ここでb_k = c−(K_0−k + 1)\ cdot h。 "hhhK0K0K_0K1K1K_1bkbkb_kbk+1bk+1b_{k+1}k=1,...,K=K0k=1,...,K=K0k = 1, . . . ,K = K_0K1K1K_1bk=c−(K0−k+1)⋅h.bk=c−(K0−k+1)⋅h.b_k = c−(K_0−k+1) \cdot h. c=cutoff point or threshold value of assignment variable h=bandwidth or window width. ...次に、平均結果をカットオフポイントの左と右だけで比較します... " ..すべての場合において、カットオフポイントの両側で別々に推定された4次回帰モデルからの適合値も表示します...(同じ論文のp。34) 私の質問は、私たちがその手順をプログラムはどうすればよいですStataかRに...シャープRDDのために(信頼区間)の割り当て変数に対して、結果変数のグラフをプロットするためのサンプル例がStata挙げられ、こことここ(rd_obsとRD置き換え)とサンプルの例Rはこちらです。ただし、これらはどちらもステップ1を実装していなかったと思います。どちらも生のデータと、プロットの適合線を持っていることに注意してください。 信頼変数なしのサンプルグラフ[Lee and …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
尖度の定義とその解釈の違い
私は最近、SPSSとStataによって提供される尖度値に違いがあることに気づきました。 http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htmを参照してください 私の理解は、それゆえ同じものの解釈が異なるということです。 これに対処する方法に関するアドバイスはありますか?

2
負の二項回帰を使用する場合、Rはクラスターオプションと同等
私は同僚の仕事を再現しようとしており、分析をStataからRに移動しています。彼女が採用するモデルは、nbreg関数内の「クラスター」オプションを呼び出して標準エラーをクラスター化します。 このオプションの内容と理由のかなり完全な説明については、http://repec.org/usug2007/crse.pdfを参照してください 私の質問は、R内の負の二項回帰に対して同じオプションを呼び出す方法ですか? 私たちの論文の主要なモデルは、次のようにスタタで指定されています xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) そして私はこれを pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) これは明らかにクラスター化されたエラーの一部を欠いています。 正確な複製を行うことは可能ですか?もしそうなら?そうでない場合、いくつかの合理的な代替手段は何ですか? ありがとう [編集]コメントで述べたように、私はマルチレベルモデルの領域に入らない解決策を望んでいました。私のトレーニングでは、これらの事柄が関連しているべきであることがわかりますが、それは私が自分で受け入れることに抵抗するよりも、飛躍的なものです。そのため、私は掘り下げて次のリンクを見つけました:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / これは、私がやりたいことを行うためのかなり単純なコードを指します。 library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) coeftest(pday, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.