統計とビッグデータ stata

25

多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか？R（または他の統計パッケージ）には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python（またはその他の動的言語）には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか？あなたの経験に基づいて、私は何を獲得し、失いますか？

355 r spss stata python

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

RでStataの「堅牢な」オプションを複製する

robustR のStataオプションの結果を複製しようとしています。MASSパッケージrlmのコマンドlmrobとパッケージ「robustbase」のコマンドを使用しました。どちらの場合も、結果はStataの「堅牢な」オプションとはまったく異なります。誰でもこの文脈で何かを提案できますか？ Stataで堅牢なオプションを実行したときに得られた結果は次のとおりです。 . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. Interval] …

39 r stata robust robust-standard-error

4

2x2より大きい分割表でのフィッシャーの正確検定

2x2の分割表にのみFisherの正確検定を適用するように教えられました。質問：フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました（私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています） Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか？分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか？

29 spss stata contingency-tables fishers-exact

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

データに多少のばらつきがあるにもかかわらず、混合モデルでランダム効果の分散がゼロになるのはなぜですか？

次の構文を使用して、混合効果ロジスティック回帰を実行しました。 # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 件名と項目はランダムな効果です。対象の項の係数と標準偏差が両方ともゼロであるという奇妙な結果が得られています。 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

22 r mixed-model stata glmm lme4-nlme

1

相互作用を含めることができる2因子ANOVAのノンパラメトリックな同等物は何ですか？

こんにちは、相互作用を含めることができる双方向ANOVA（3x4設計）のノンパラメトリックな同等物を見つけようとしています。Zar 1984「生物統計学的分析」の私の読書から、これはシャイラー、レイ、およびヘア（1976）で述べられた方法を使用して可能ですが、オンラインの他の投稿によると、この方法はもはや適切ではないと推測されましただった）。誰がそれを行うのに適切な方法を知っていますか？もしそうなら、RまたはStataの対応する機能は？

20 r anova nonparametric stata interaction

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

GLMの特定のファミリの使用を検証できる診断はどれですか？

これはとても初歩的なように思えますが、私はこの時点で常に行き詰まります… 私が扱うデータのほとんどは非正常であり、ほとんどの分析はGLM構造に基づいています。現在の分析では、「歩行速度」（メートル/分）の応答変数があります。OLSを使用できないことは簡単にわかりますが、どの家族（ガンマ、ワイブルなど）が適切かを判断するのは非常に不確実です！ Stataを使用して、残差と不均一分散、残差と適合値などの診断を調べます。カウントデータはレート（例：発生率）の形式を取り、ガンマ（過剰分散離散負二項モデルのアナログ）を使用できることを認識していますが、「喫煙銃」で「はい、正しい」と言いたいだけです。家族。これを行うには、標準化された残差と適合値を比較するのが唯一の最善の方法ですか？混合モデルを使用してデータの階層を説明したいのですが、最初に、どの変数が私の応答変数を最もよく説明しているかを整理する必要があります。任意の助けに感謝します。Stata言語は特に高く評価されています！

19 generalized-linear-model stata gamma-distribution

1

R（lme4）対Stata（xtmixed）のランダム効果の標準誤差

このデータを考慮してください： dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

2SLSが第2ステージのプロビット

観測データで因果関係を推測するために、機器変数分析を使用しようとしています。私の研究における内因性の問題に対処する可能性が高い2段階の最小二乗（2SLS）回帰に遭遇しました。ただし、最初の段階はOLSになり、2番目の段階は2SLS内でプロビットになります。私の読書と検索に基づいて、研究者は2SLSまたは第1段階のプロビットと第2段階のOLSのいずれかを使用していますが、私が達成しようとしているのは逆ではありません。現在、Stataを使用していますが、Stataのivregコマンドはストレート2SLS用です。

15 stata probit instrumental-variables 2sls

5

時系列をトレンド除去するにはどうすればよいですか？

時系列をトレンド除去するにはどうすればよいですか？最初の違いを取得してDickey Fullerテストを実行しても大丈夫ですか？それが静止している場合は問題ありませんか？また、オンラインで、Stataでこれを行うことで時系列をトレンドダウンできることを発見しました。 reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) 時系列をトレンド除去するための最良のアプローチは何ですか？

13 regression time-series stata stationarity

4

パネルデータと一致する傾向スコア

個人の縦断的なデータセットがあり、その一部は治療の対象であり、他の対象はそうではありませんでした。すべての個人は、出生から18歳までのサンプルに含まれており、治療はその範囲内のある年齢で行われます。治療の年齢は症例によって異なる場合があります。傾向スコアマッチングを使用して、生年の18歳までの各ペアを追跡できるように、生年に完全に一致するペアの治療ユニットとコントロールユニットを一致させたいと思います。マッチング後、アイデアは差異の差の戦略を使用して治療の効果を推定することです。私が現在直面している問題は、パネルデータとのマッチングを行うことです。Stataのpsmatch2コマンドを使用しており、傾向スコアマッチングを使用して世帯と個人の特性を照合します。一般に、パネルデータでは、年齢ごとに最適な一致が異なります。例として、Aが処理され、BとCがコントロールであり、それらすべてが1980年に生まれた場合、AとBは1980年に0歳で一致し、AとCは1981年に1歳で一致します。。また、Aは、過去数年間の独自の治療前の値と一致する場合があります。この問題を回避するために、サンプルの期間全体で平均的に最も類似している個人をマッチングで識別できるように、すべての時変変数の平均を取り、0〜18の年齢グループごとに個別にマッチングを行います。残念ながら、これは依然として、年齢グループごとに異なる制御ユニットを各処理ユニットに一致させます。誰かがStataのパネルデータとペアワイズマッチングを行う方法に私を導くことができれば、これは非常に高く評価されるでしょう。

13 stata panel-data propensity-scores

2

Stataでプロビットモデルを解釈するにはどうすればよいですか？

Stataで実行したこのプロビット回帰の解釈方法がわかりません。データはローンの承認に関するもので、白はダミー変数で、人が白人の場合は= 1、人が白人でない場合は= 0です。これを読む方法についてのヘルプは大歓迎です。私が主に探しているのは、白人と非白人の両方のローン承認の推定確率を見つける方法です。誰かがここのテキストとそれを正常にする方法で私を助けることができますか？申し訳ありませんが、これを行う方法がわかりません。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

13 regression multiple-regression stata

タグ付けされた質問 「stata」

タグ付けされた質問「stata」