統計とビッグデータ group-differences

3

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

エフェクトサイズとは何ですか？なぜそれがさらに便利なのですか？

私は、大学院レベルの入門的な統計の背景を持っています（学部レベルで数学的統計と確率を知っていると仮定し（例えば、Wackerly et al。、Ross 'Probability）、測定理論の知識があります）。私は最近、教育統計で実験計画と統計報告を行う仕事を始めました。そして、基本的に学校の説明責任の指標を評価し、データを分析し、変更を提案するなどのプロジェクトに参加しました。数学統計のバックグラウンドを持つ私の部門の1つ。私の立場では、人々はプログラムの効果を測定するために効果サイズを使用することを強く提案しています。エフェクトサイズについて聞いたことがあるのは、心理学を勉強していた友人からです。私の印象では、効果サイズ= 平均の差標準偏差。効果の大きさ=手段の違い標準偏差。\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} 従来の仮説検定に比べて、このメトリックについて何がそんなに便利なのか、なぜ気にする必要があるのか？私にとっては、2サンプルのt検定の検定統計量に過ぎませんttt。おそらくすべてを同じスケールにすること（これはだれかが実際に「正規化」する理由です）を除けば、これはまったく有用ではありませんが、テスト統計（これはエフェクトサイズのように思えます）は時代遅れであると思いました、およびppp値が推奨されます。

18 effect-size group-differences

3

ランク付けされたリストの比較

とn 2で構成される2つのグループが、それぞれ重要度の高いものから順に25個のアイテムのセットをランク付けするとします。これらのランキングを比較する最良の方法は何ですか？n1n1n_1n2n2n_2 明らかに、25のMann-Whitney Uテストを実行することは可能ですが、これは25のテスト結果を解釈することになり、多すぎるかもしれません（そして、厳密な使用では、複数の比較の問題を持ち出します）。また、ランクがこのテストのすべての前提を満たしているかどうかも完全にはわかりません。また、評価とランキングに関する文献へのポインタにも興味があります。コンテキスト：これらの25項目はすべて教育に関連しており、2つのグループは異なるタイプの教育者です。両方のグループは小規模です。 @ttnphnsに応答して編集：グループ1とグループ2のアイテムの合計ランクを比較するつもりはありませんでした。@ ttnphnsが指摘しているように、これは定数です。ただし、グループ1とグループ2のランキングは異なります。つまり、グループ1は、グループ2よりもアイテム1のランクを高くすることができます。それらをアイテムごとに比較し、各アイテムの平均または中央ランクを取得し、25のテストを行うことができましたが、これを行うためのより良い方法があるかどうか疑問に思いました。

15 ranking group-differences

2

サンプルサイズが等しくない：呼び出すタイミングが終了する

私は学術雑誌の記事を査読していますが、著者は推論統計を報告しないことの正当性として次のように書いています（2つのグループの性質を明確にしました）。合計で、2,349人中25人（1.1％）がXを報告しました。グループXとグループY（他の2,324人の参加者）を統計的に比較する分析を提示することは適切に控えます。これらの結果は偶然によって大きく引き起こされる可能性があるためです。私の質問は、この研究の著者は、グループの比較に関してタオルを投げ入れることを正当化するのか？そうでない場合、私は彼らに何をお勧めしますか？

14 hypothesis-testing sample-size power-analysis power group-differences

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Rの2つの多項式回帰の差の統計的有意性を比較する

まず、このフォーラムでいくつかの調査を行いましたが、非常によく似た質問が行われたことはわかっていますが、通常は適切に回答されていないか、回答の詳細がわからないだけで理解できない場合があります。したがって、今回は私の質問は次のとおりです。2つのデータセットがあり、それぞれに次のような多項式回帰を行います。 Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) 多項式回帰プロットは次のとおりです。係数は次のとおりです。 > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 そして、私が知りたいのは、R関数を使用して、関連する日数の間隔が[ 1,100]。私が理解したことから、値は2つの異なるデータセットからも、モデル/真のデータの比較に使用されるAICからも得られるため、anovaテストを直接適用することはできません。私は関連する質問で@Rolandによって与えられた指示に従ってみましたが、私の結果を見て、おそらく何かを誤解しました：これが私がしたことです：両方のデータセットを1つに結合しました。 f@Rolandが話している変動要因です。最初のセットには1を入れ、他のセットには0を入れました。 y<-(mydata2[,c(2)]) x<-(mydata2[,c(1)]) f<-(mydata2[,c(3)]) plot(x,y, xlim=c(1,nrow(mydata2)),type='p') fit3ANOVA <- lm( y~(poly(x,2)) ) fit3ANOVACN <- lm( y~f*(poly(x,2)) ) 私のデータは今このように見えます：赤いものはfit3ANOVAまだ機能していますがfit3ANOVACN、モデルの奇妙な結果を持つ青いものに問題があります。フィットモデルが正しいかどうかはわかりません。@ Rolandが正確に何を意味するのかわかりません。 @DeltaIVソリューションを考えると、私はその場合を想定しています。私はそう仮定する権利がありますか？

10 r regression statistical-significance regression-coefficients group-differences

4

Rの離散時間イベント履歴（生存）モデル

Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります：ID、Event（各time-obsで1または0）およびTime Elapsed（観測の開始以降）、および他の共変量。モデルに合うようにコードを書くにはどうすればよいですか？従属変数はどれですか？Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか？必要ですか？ありがとう。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

母集団間の違いを調査する

2つの母集団からのサンプルがあるAとしBます：と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり（たとえば、機能するように駆動しますか？）、一部は機能的です（高さなど）。これらの機能をと呼びましょう。何百ものこれらの機能（例、n = 200）を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。X1…XnX1…XnX_1 \ldots X_n 2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。それらは実際に大きく異なりますか？それらの間の大幅な違いは何ですか？デシジョンツリー（ランダムフォレストなど）や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。この問題に対処するためのいくつかの原則的なアプローチは何ですか？ここに私が持っているいくつかの懸念があります：線形回帰分析のような方法は、（2）に完全に答えない場合がありますよね？たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります（少なくとも1回の近似で）。同じ理由で、ANOVAは（2）についても完全な回答を提供できないと思います。予測アプローチがどのように答えるかは完全には明らかではありません（1）。たとえば、どの分類/予測損失関数を最小化する必要がありますか？そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか？最後に、（1）で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。

9 anova random-forest cart group-differences

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

3

サブグループの平均がサブグループを含むグループ全体と異なるかどうかをテストする方法は？

サブグループ（たとえば、死亡した人）の平均（たとえば、血圧）がグループ全体（たとえば、死亡した人を含めて病気にかかった人すべて）と異なるかどうかをどのようにテストできますか？明らかに、最初のものは2番目のもののサブグループです。どの仮説検定を使用すればよいですか？

9 hypothesis-testing group-differences

2

混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ

以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコードこれが私のRコードです： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

2

メタアナリシスでは、生データを含まない重要でない研究をどのように扱うべきですか？

特定の構成に関するグループAとグループBのパフォーマンスを調べて、メタ分析を行っているとしましょう。さて、私が出くわすいくつかの研究は、2つのグループ間で統計的な差が見つからなかったと報告しますが、正確なテスト統計や生データは表示されません。メタ分析では、そのような研究をどのように処理すればよいですか？基本的に、私はここに3つの異なる選択肢を見ます：それらすべてを含め、それぞれに0の効果サイズを割り当てます。それらをすべて捨てます。それらのそれぞれに対してある種の電力分析を行うか、特定の数の参加者にしきい値を設定します。統計的有意性に到達できたはずのすべてを含め、それぞれに効果サイズ0を割り当てます。残りは捨てます。すべての異なるオプションのメリットを確認できます。オプション1はかなり保守的であり、タイプIIのエラーを発生させるリスクしかありません。オプション2はタイプIのエラーを引き起こすリスクを高めますが、多くの不十分な研究のために結果が台無しになるのを防ぎます。オプション3は、オプション1とオプション2の間の中間のように見えますが、多くの仮定や純粋な推測を行う必要があります（パワー分析のベースとする効果のサイズはどれですか？それぞれに何人の参加者を要求する必要がありますか？合格するための研究？）、おそらく最終結果の信頼性を低下させ、主観性を高めます。

9 hypothesis-testing power-analysis meta-analysis effect-size group-differences

タグ付けされた質問 「group-differences」

タグ付けされた質問「group-differences」