タグ付けされた質問 「stata」

統計ソフトウェアパッケージ。このタグは、(a)質問の重要な部分または予想される回答のいずれかとしてStataを含む、トピックに関する質問に使用します。(b)は、Stataの使い方だけではありません。

1
固定効果モデルで省略されたダミー変数を処理する方法は?
私のハウスマン試験値を示しているので、私は私のパネルデータの固定効果モデル(9年、1000+ OBS)を使用しています。私の会社が含む業界のダミー変数を追加すると、それらは常に省略されます。DV(開示指数)に関しては、さまざまな業界グループの間で大きな違いがあることを知っています。しかし、Stataを使用している場合、モデルでそれらを取得できません。(Pr &gt; χ2)&lt; 0.05(Pr&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 これを解決する方法はありますか?そしてなぜそれらは省略されているのですか?

1
比率の2標本比較、標本サイズ推定:RとStata
比率の2標本比較、標本サイズ推定:RとStata 次のように、サンプルサイズの結果が異なります。 でR power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 結果:各グループの(つまり 161)。n=160.7777n=160.7777n = 160.7777 Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 結果:各グループで。n=174n=174n = 174 なぜ違いがあるのですか?ありがとう。 ところで、私はSAS JMPで同じサンプルサイズ計算を実行しました。結果は(Rの結果とほとんど同じです)。n=160n=160n = 160

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

5
2つの非定常時系列を比較して相関を決定する方法は?
時間の経過に伴う死亡時の年齢の中央値をプロットする2つのデータシリーズがあります。どちらのシリーズも、長期にわたる死亡年齢の増加を示していますが、一方は他方よりはるかに低くなっています。下のサンプルの死亡年齢の増加が上のサンプルのそれと大幅に異なるかどうかを確認したいと思います。 以下に、年(1972年から2009年まで)の順に小数点以下3桁に四捨五入したデータを示します。 Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983 Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 …

2
変量効果メタ分析の代替重み付けスキーム:標準偏差の欠落
私は、標準偏差を報告しない多くの研究をカバーする変量効果メタ分析に取り組んでいます。すべての研究はサンプルサイズを報告しています。SDの欠損データを概算または推定することはできないと思います。すべての研究で標準偏差が利用できない場合、生の(非標準化)平均差を効果サイズとして重み付けするメタ分析はどのように重み付けする必要がありますか?もちろん、タウ2乗を推定することもできます。ランダム効果フレームワーク内に留まるために使用する重み付けスキームに、スタディ間の分散の測定値を組み込みたいと思います。 もう少し情報が含まれています: 生の平均値の差が依然として有用である理由:データは、本質的に意味のあるスケール(単位あたりの米ドル)で報告されます。したがって、平均差のメタ分析はすぐに解釈できます。 SDデータを概算または推定できない理由:標準偏差データが欠落している研究には、標準偏差を概算するのに十分なデータが含まれていません(つまり、中央値と範囲が文献で報告されることはありません)。研究の大部分がsdを欠いているため、欠落しているデータを補うことはお勧めできません。これは、研究が対象地域と調査プロトコルの点で大きく異なるためです。 メタアナリシスの生の平均差で通常行われること:研究の重みは、平均差の標準誤差に基づいています(通常、サンプルサイズの項とプールされた分散で計算されます)。これを持っていない。変量効果メタ分析では、研究の重みには、研究間の分散の用語も含まれます。これがあります。 このコンテキストで単純な逆サンプルサイズの重み付けを使用できますか?タウ2乗の推定値(または研究間の分散のその他の測定値)を重み付けにどのように組み込みますか?

2
レコードのリンクにEMアルゴリズムを使用する
2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか? 例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率(乗算?平均?)を1に結合します。 次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P(最初のヒットは一致)&gt; =しきい値が必要です。次に、P(最初のヒットが一致)/ P(2番目のヒットが一致)&gt; = P(2番目のヒットが一致)が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。 これらのしきい値はどのように決定されますか? 私はStataやPerlでのアプローチを好みます。 たとえば、次を参照してください。 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません)。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ペアの反復測定ANOVAまたは混合モデル?
血圧を測定する2つの方法を検討している臨床試験のデータを分析するように依頼されました。50の被験者からのデータがあり、各方法を使用してそれぞれ2〜57のメジャーがあります。 どのように進めるのが最善かと思います。 明らかに、血圧の測定値がペアになっている(2つの方法が同時に測定されている)ことと、時間変化する共変量(患者ごとに異なる数の観察が行われること)を考慮し、内部と内部の両方を考慮に入れるソリューションが必要です。患者の多様性。 どういうわけかこれを繰り返し測定ANOVAに靴角掛けすることを考えていましたが、混合モデルのアプローチが必要かもしれないと思っています。 役立つアドバイスをいただければ幸いです。 私は完全なR初心者ですが、スキルを開発することに非常に興奮しており、私はスタタで適度な経験を持っているので、いつでもそれに頼ることができます。
9 r  anova  mixed-model  stata 


2
マルチレベルモデルにおける切片勾配相関の効用について
彼らの著書「Multilevel Analysis:An Introduction to Basic and Advanced Multilevel Modeling」(1999)で、Snijders&Bosker(8章、セクション8.2、119ページ)は、切片と勾配の相関を、切片と勾配の共分散を除算して計算すると述べています。切片の分散と勾配の分散の積の平方根によって、-1と+1の間に制限されず、無限になることさえあります。 これを考えると、私はそれを信頼すべきだとは思いませんでした。しかし、私は説明するための例を持っています。人種(二分法)、固定効果としての年齢と年齢*人種、ランダム効果としてのコホート、およびランダム勾配としての人種二分法変数を含む私の分析の1つで、一連の散布図は、勾配が値全体であまり変化しないことを示しています私のクラスター(つまり、コホート)変数の変化、およびコホート全体で勾配がより少なくまたはより急になるのがわかりません。尤度比検定では、サンプルの合計サイズ(N = 22,156)にも関わらず、ランダムインターセプトモデルとランダムスロープモデル間の適合性が有意でないことも示されています。それでも、切片と傾きの相関は-0.80近くでした(これは、時間の経過に伴う、つまりコホート全体でのY変数のグループ差の強い収束を示唆しています)。 Snijders&Bosker(1999)がすでに述べていることに加えて、切片と勾配の相関を信頼しない理由を示す良い例だと思います。 マルチレベル研究で切片勾配相関を本当に信頼して報告する必要がありますか?具体的には、そのような相関関係の有用性は何ですか? 編集1:それは私の質問に答えるとは思わないが、gungは私に詳細情報を提供するように頼んだ。役立つ場合は、以下を参照してください。 データは一般社会調査からのものです。構文には、Stata 12を使用したので、次のようになります。 xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var wordsum 語彙テストのスコア(0-10)、 bw1 民族変数(黒= 0、白= 1)、 aged1-aged9 年齢のダミー変数であり、 …

2
時変処理による傾向スコアマッチング
基本的な傾向スコアマッチング手順は、断面データ(つまり、特定の時点で収集されたデータ)で機能します。一般的なpsmatch2コマンドは、観測値が処理グループまたはコントロールグループに属していることを示すダミー変数を使用します。 ただし、私のデータセットでは、このインジケーター関数は時変です。データは次のようになります。個人を特定し、12年間追跡します。この期間のある時点で、個人は治療を受ける可能性があるため、「コントロールから治療グループに移る」。これは、個人ごとにいつでも発生する可能性があることに注意してください(sic!)。 その上、その後の私の分析は時間に依存します:個人が治療されている瞬間から、次の年(シック!)についてのみATTを推定したいと思います。したがって、治療を開始してから1年後には、治療を受けた個人についてはもう気になりません。 psmatch2それに関しては非常に制限的なようです。それを行う方法について何か可能性がありますか?多分それを可能にするマッチング方法もあります。 PS:フォーラムには同様の質問が1つありますが、この問題の解決には役立ちませんでした。

1
パネルデータの仕様
データセットの最適な仕様を見つけようとしています。 説明された変数について、3つの同様のパネルデータモデルで経済成長の意味でポーランドの特別経済区の有効性を調査しようとしています。a)登録失業率b)1人あたりのGDP c)1人あたりの総固定資本形成。データはNUTS3サブリージョン用です。説明変数は次のとおりです年のサブリージョンにSEZが存在する場合は0-1 、いくつかの経済変数。年間の頻度、データセットは66のサブリージョンの2004〜2012です。ttt 固定効果とランダム効果を試しました。今のところ、私は重要性と理論的に正しい兆候があるため、FEを選択しました。しかし、私がそれを当たり前のことと見なすのを妨げるいくつかの問題があります: 自己相関と相互相関をテストする方法は? Stataでエラー項の分布をテストする方法がわかりません。さらに、それが正常に分布していない場合は、あまり気にする必要がありますか? 文献からわかるように、説明変数と-1または1に近い誤差項の間の相関係数の値は、実際には悪くありません。私の場合は、ご覧のとおり、ほぼ-1です。 混合モデルは私のデータセットに適していますか? 失業率を説明するモデルの結果を添付します。 コード: xtreg st_bezr sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2, fe Fixed-effects (within) regression Number of obs = 594 Group variable: id Number of groups = 66 R-sq: within = 0.4427 Obs per group: min = 9 between = 0.3479 avg …

2
残差の非正規性
残差の正規分布の重要性に疑問を呈するように見えるこの投稿を参照します。これは、不均一分散とともに、ロバストな標準誤差を使用することで回避できる可能性があると主張しています。 私はさまざまな変換(ルート、ログなど)を検討しましたが、すべて問題を完全に解決するのに役に立たないことがわかりました。 これが私の残差のQQプロットです。 データ 従属変数:すでに対数変換を使用(このデータの外れ値の問題と歪度の問題を修正) 独立変数:会社の年齢、およびいくつかのバイナリ変数(指標)(後で、独立変数として別の回帰のためにいくつかのカウントがあります) iqrStata のコマンド(Hamilton)は、正規性を除外する重大な外れ値を特定しませんが、下のグラフはそうでないことを示唆しており、Shapiro-Wilkテストもそうです。

3
ユニットルートテストの結果をどのように解釈しますか?
プロジェクトに対していくつかのユニットルートテストを実行する必要があります。データの解釈方法がわからないだけです(これは私が要求されたものです)。 これが私の結果の1つです。 dfuller Demand Dickey-Fuller test for unit root Number of obs = 50 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------- Z(t) -1.987 -3.580 -2.930 -2.600 ------------------------------------------------------------------- MacKinnon approximate p-value for Z(t) = 0.2924 臨界値とp値の結果について何を言いますか?

1
分位回帰の標準化されたベータ係数を解釈することは可能ですか?
標準化されたデータの分位点回帰からの係数を解釈することは可能ですか? 従属変数と独立変数を標準化し(平均を差し引き、標準偏差で除算)、次のような中央値の分位数回帰を実行するとします。xyyyバツxx qreg y x, q(0.5) スタタ。独立変数の推定係数はです。次の解釈は正しいですか?0.50.50.5 独立変数の標準偏差が1増加すると、従属変数の中央値が標準偏差増加しますか?0.50.50.5

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.