タグ付けされた質問 「stata」

統計ソフトウェアパッケージ。このタグは、(a)質問の重要な部分または予想される回答のいずれかとしてStataを含む、トピックに関する質問に使用します。(b)は、Stataの使い方だけではありません。

25
統計ワークベンチとしてのPython
多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。 私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか?R(または他の統計パッケージ)には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python(またはその他の動的言語)には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか? あなたの経験に基づいて、私は何を獲得し、失いますか?
355 r  spss  stata  python 

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
RでStataの「堅牢な」オプションを複製する
robustR のStataオプションの結果を複製しようとしています。MASSパッケージrlmのコマンドlmrobとパッケージ「robustbase」のコマンドを使用しました。どちらの場合も、結果はStataの「堅牢な」オプションとはまったく異なります。誰でもこの文脈で何かを提案できますか? Stataで堅牢なオプションを実行したときに得られた結果は次のとおりです。 . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. Interval] …

4
2x2より大きい分割表でのフィッシャーの正確検定
2x2の分割表にのみFisherの正確検定を適用するように教えられました。 質問: フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました(私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています) Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか? 分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか?

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
データに多少のばらつきがあるにもかかわらず、混合モデルでランダム効果の分散がゼロになるのはなぜですか?
次の構文を使用して、混合効果ロジスティック回帰を実行しました。 # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 件名と項目はランダムな効果です。対象の項の係数と標準偏差が両方ともゼロであるという奇妙な結果が得られています。 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

1
相互作用を含めることができる2因子ANOVAのノンパラメトリックな同等物は何ですか?
こんにちは、相互作用を含めることができる双方向ANOVA(3x4設計)のノンパラメトリックな同等物を見つけようとしています。Zar 1984「生物統計学的分析」の私の読書から、これはシャイラー、レイ、およびヘア(1976)で述べられた方法を使用して可能ですが、オンラインの他の投稿によると、この方法はもはや適切ではないと推測されましただった)。 誰がそれを行うのに適切な方法を知っていますか?もしそうなら、RまたはStataの対応する機能は?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
GLMの特定のファミリの使用を検証できる診断はどれですか?
これはとても初歩的なように思えますが、私はこの時点で常に行き詰まります… 私が扱うデータのほとんどは非正常であり、ほとんどの分析はGLM構造に基づいています。現在の分析では、「歩行速度」(メートル/分)の応答変数があります。OLSを使用できないことは簡単にわかりますが、どの家族(ガンマ、ワイブルなど)が適切かを判断するのは非常に不確実です! Stataを使用して、残差と不均一分散、残差と適合値などの診断を調べます。 カウントデータはレート(例:発生率)の形式を取り、ガンマ(過剰分散離散負二項モデルのアナログ)を使用できることを認識していますが、「喫煙銃」で「はい、正しい」と言いたいだけです。家族。これを行うには、標準化された残差と適合値を比較するのが唯一の最善の方法ですか?混合モデルを使用してデータの階層を説明したいのですが、最初に、どの変数が私の応答変数を最もよく説明しているかを整理する必要があります。 任意の助けに感謝します。Stata言語は特に高く評価されています!


4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
2SLSが第2ステージのプロビット
観測データで因果関係を推測するために、機器変数分析を使用しようとしています。 私の研究における内因性の問題に対処する可能性が高い2段階の最小二乗(2SLS)回帰に遭遇しました。ただし、最初の段階はOLSになり、2番目の段階は2SLS内でプロビットになります。私の読書と検索に基づいて、研究者は2SLSまたは第1段階のプロビットと第2段階のOLSのいずれかを使用していますが、私が達成しようとしているのは逆ではありません。 現在、Stataを使用していますが、Stataのivregコマンドはストレート2SLS用です。

5
時系列をトレンド除去するにはどうすればよいですか?
時系列をトレンド除去するにはどうすればよいですか?最初の違いを取得してDickey Fullerテストを実行しても大丈夫ですか?それが静止している場合は問題ありませんか? また、オンラインで、Stataでこれを行うことで時系列をトレンドダウンできることを発見しました。 reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) 時系列をトレンド除去するための最良のアプローチは何ですか?

4
パネルデータと一致する傾向スコア
個人の縦断的なデータセットがあり、その一部は治療の対象であり、他の対象はそうではありませんでした。すべての個人は、出生から18歳までのサンプルに含まれており、治療はその範囲内のある年齢で行われます。治療の年齢は症例によって異なる場合があります。傾向スコアマッチングを使用して、生年の18歳までの各ペアを追跡できるように、生年に完全に一致するペアの治療ユニットとコントロールユニットを一致させたいと思います。マッチング後、アイデアは差異の差の戦略を使用して治療の効果を推定することです。 私が現在直面している問題は、パネルデータとのマッチングを行うことです。Stataのpsmatch2コマンドを使用しており、傾向スコアマッチングを使用して世帯と個人の特性を照合します。一般に、パネルデータでは、年齢ごとに最適な一致が異なります。例として、Aが処理され、BとCがコントロールであり、それらすべてが1980年に生まれた場合、AとBは1980年に0歳で一致し、AとCは1981年に1歳で一致します。 。また、Aは、過去数年間の独自の治療前の値と一致する場合があります。 この問題を回避するために、サンプルの期間全体で平均的に最も類似している個人をマッチングで識別できるように、すべての時変変数の平均を取り、0〜18の年齢グループごとに個別にマッチングを行います。残念ながら、これは依然として、年齢グループごとに異なる制御ユニットを各処理ユニットに一致させます。 誰かがStataのパネルデータとペアワイズマッチングを行う方法に私を導くことができれば、これは非常に高く評価されるでしょう。

2
Stataでプロビットモデルを解釈するにはどうすればよいですか?
Stataで実行したこのプロビット回帰の解釈方法がわかりません。データはローンの承認に関するもので、白はダミー変数で、人が白人の場合は= 1、人が白人でない場合は= 0です。これを読む方法についてのヘルプは大歓迎です。私が主に探しているのは、白人と非白人の両方のローン承認の推定確率を見つける方法です。誰かがここのテキストとそれを正常にする方法で私を助けることができますか?申し訳ありませんが、これを行う方法がわかりません。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.