統計とビッグデータ r

1

デフォルトのlme4オプティマイザーでは、高次元のデータに対して多くの反復が必要です

TL; DR：lme4最適化は、デフォルトではモデルパラメータの数に直線的であるように思われる、とある道遅く同等以上glmのグループのためのダミー変数を持つモデル。高速化するためにできることはありますか？私はかなり大きな階層型ロジットモデル（〜5万行、100列、50グループ）に適合させようとしています。データへの通常のロジットモデルのフィッティング（グループのダミー変数を使用）は正常に機能しますが、階層モデルはスタックしているように見えます：最初の最適化フェーズは正常に完了しますが、2番目は何も変更せずに停止せずに多くの反復を実行します。編集：私は問題が主に非常に多くのパラメータを持っていると疑っています、maxfnより低い値に設定しようとすると警告が表示されるためです： Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. ただし、最適化の過程でパラメーターの推定値はまったく変化しないため、何をすべきかについてはまだ混乱しています。maxfn（警告にもかかわらず）オプティマイザーコントロールに設定しようとしたときに、最適化が終了した後にハングしたように見えました。ランダムデータの問題を再現するコードを次に示します。 library(lme4) set.seed(1) SIZE <- 50000 NGRP <- 50 NCOL <- 100 test.case <- data.frame(i=1:SIZE) test.case[["grouping"]] <- sample(NGRP, size=SIZE, replace=TRUE, prob=1/(1:NGRP)) test.case[["y"]] <- sample(c(0, 1), size=SIZE, replace=TRUE, prob=c(0.05, 0.95)) …

12 r mixed-model optimization lme4-nlme numerics

1

ダンのテストの結果の読み方

Dunnのテストの結果を読むにはどうすればよいですか？具体的には、以下の表の値は何を教えてくれますか？ 4つのグループにノンパラメトリックデータがあり、最初にクラスカルワリス検定を行って、グループの分布が互いに異なり、集合データセットと異なることを確認しました。次に、ダンのテストを使用して、どのグループが互いに異なっており、どのグループが異なっていたかを確認しました。 library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C ---------+--------------------------------- B | 20.62310 | 0.0000 | C | 26.66519 …

12 r distributions kruskal-wallis dunn-test

3

4次元データを視覚化するための一般的な選択肢は何ですか？

次の4次元データがあり、最初の3つは座標と見なされ、最後の1つは値と見なされるとします。 c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 最後の値の最初の3つの座標の効果をより良く視覚化する方法は？私は3つの方法を知っています。 1つは、ポイントのサイズを4つの値とする最初の3つの座標の3Dプロットです。しかし、データの傾向を見るのはそれほど簡単ではありません。別の方法は、座標が固定された一連の3Dプロットを使用することです。もう1つは、Rの格子のいわゆる「トレリスグラフ」です。

12 r data-visualization

1

Rの回帰スプラインを使用したロジスティック回帰

私は、英国の頭部外傷の全国外傷データベースからの遡及データに基づいてロジスティック回帰モデルを開発しています。主要な結果は30日間の死亡率です（「生存率」指標として示されます）。以前の研究の結果に対する有意な効果の公表された証拠を持つ他の測定には、以下が含まれます： Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

12 r logistic generalized-linear-model goodness-of-fit regression-strategies

1

混合効果モデル（lme4）からのケースの勾配の抽出

次の段落で概説するように、混合効果モデルで各個人の勾配を抽出したい混合効果モデルを使用して、年齢、性別、教育年数を固定効果として含む認知サマリー測定値の個々の変化の経路を特徴付けました（Laird and Ware、1982; Wilson et al。、2000、2002c）... 。年齢、性別、教育の影響を調整した後、混合モデルから個々の認知低下勾配の残存用語を抽出しました。次に、個人固有の調整された残差勾配が、遺伝的関連分析の定量的結果表現型として使用されました。これらの推定値は、個人の傾斜と、同じ年齢、性別、教育レベルの個人の予測傾斜との差に相当します。 De Jager、PL、Shulman、JM、Chibnik、LB、Keenan、BT、Raj、T.、Wilson、RSなど（2012）。加齢に伴う認知機能低下の割合に影響を与える一般的なバリアントのゲノムワイドスキャン。老化の神経生物学、33（5）、1017.e1〜1017.e15。 coef関数を使用して各個人の係数を抽出することを検討しましたが、これが使用する正しいアプローチであるかどうかはわかりません。誰でもこれを行う方法に関するアドバイスを提供できますか？ #example R code library(lme4) attach(sleepstudy) fml <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy) beta <- coef(fml)$Subject colnames(beta) <- c("Intercept", "Slope") beta summary(beta) summary(fm1)

12 r mixed-model

1

t.testは「データは本質的に一定です」というエラーを返します

R version 3.1.1 (2014-07-10) -- "Sock it to Me" > bl <- c(140, 138, 150, 148, 135) > fu <- c(138, 136, 148, 146, 133) > t.test(fu, bl, alternative = "two.sided", paired = TRUE) Error in t.test.default(fu, bl, alternative = "two.sided", paired = TRUE) : data are essentially constant 次に、fuデータセット内の単一の文字を変更します。 …

12 r t-test

2

SAS PROC GLIMMIXが二項glmmに対してglmer（lme4）とは非常に異なるランダムな勾配を与えるのはなぜですか

私はRに精通しているユーザーであり、4つの生息地変数について5年間で約35人のランダムな勾配（選択係数）を推定しようとしています。応答変数は、場所が「使用済み」（1）または「使用可能」（0）の生息地（以下「使用」）であったかどうかです。 Windows 64ビットコンピューターを使用しています。 Rバージョン3.1.0では、以下のデータと式を使用します。PS、TH、RS、およびHWは固定効果です（標準化された、測定された生息地までの距離）。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

12 r binomial sas random-effects-model lme4-nlme

3

と残差逸脱の自由度を使用したロジスティック回帰係数のテスト

概要：標準正規分布ではなく、ロジスティック回帰係数のテストに分布（残留偏差に基づく自由度を伴う）の使用をサポートする統計理論はありますか？ttt SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します（この質問の残りの部分ではと呼びます）、ただし「自由度」列、および分布を仮定した値も報告しますttt11^1β^1/ var （β^1）−−−−−−√β^1/var（β^1）\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。22^2 ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることはttt zzzは「ほぼ」正規分布しています。この近似は、サンプルサイズが小さい場合には不十分です。それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできません。zzzttt さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。zzzttttttttt 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか？zzzttt そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか？ttt より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか？ Rコード： summary(glm(y ~ x, data=dat, family=binomial)) R出力： Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: Estimate Std. Error z …

12 r logistic mathematical-statistics sas degrees-of-freedom

1

Rのメディエーション分析からの出力を理解する

パッケージのビネットを使用して、Rのメディエーションパッケージを回避しようとしています。 mediate()関数の出力を理解するのに苦労しています。 require("mediation") require("sandwich") data("framing") med.fit <- lm(emo ~ treat + age + educ + gender + income, data = framing) out.fit <- glm(cong_mesg ~ emo + treat + age + educ + gender + income, data = framing, family = binomial("probit")) summary(out.fit) # OR for sending a message to …

12 r mediation

3

データを再構築/再構築する最良の方法は何ですか？

私は研究室（ボランティア）の研究助手です。私と小さなグループは、大規模な研究から引き出された一連のデータのデータ分析を担当しています。残念なことに、データはある種のオンラインアプリで収集されており、最も使いやすい形式でデータを出力するようにプログラムされていませんでした。以下の図は、基本的な問題を示しています。これは「リシェイプ」または「リストラクチャリング」と呼ばれると言われました。質問：1万件以上のエントリがある大規模なデータセットを使用して、写真1から写真2に移動するための最良のプロセスは何ですか？

12 r excel data-cleaning

1

Lmerモデルが収束に失敗する

データをここで説明します反復測定ANOVAを近似するときにaovで「Error（）モデルが特異なエラーになる」原因は何ですか？私が使用して相互作用の効果を確認しようとしていますlmer私の基本ケースがあるので： my_null.model <- lmer(value ~ Condition+Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) my.model <- lmer(value ~ Condition*Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) を実行するanovaと重要な結果が得られますが、ランダムな勾配（(1+Scenario|Player)）を考慮しようとすると、このエラーでモデルが失敗します。 Warning messages: 1: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. 2: In optwrap(optimizer, devfun, getStart(start, rho$lower, rho$pp), : convergence code …

12 r lme4-nlme

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Rの段階的回帰–クリティカルp値

step()段階的回帰のR の関数で使用される重要なp値は何ですか？0.15と仮定していますが、私の仮定は正しいですか？重要なp値を変更するにはどうすればよいですか？

12 r regression p-value stepwise-regression

2

分散共分散行列の解釈

線形モデルがModel1ありvcov(Model1)、次の行列を与えると仮定します。 (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 この例では、このマトリックスは実際に何を表示しますか？モデルとその独立変数に対して安全に行える仮定は何ですか？

12 r interpretation multicollinearity assumptions covariance-matrix

1

一般化非線形最小二乗回帰（nlme）の対数尤度を「手で」計算する

私は、機能のための最小二乗非線形回帰、一般化のための対数尤度を計算しようとしているf(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}によって最適化されたgnlsRパッケージの機能をnlme（ブラウン運動と仮定AA系統樹上の距離によって生成された分散共分散行列使用して、corBrownian(phy=tree)からape）パッケージ。次の再現可能なRコードは、x、yデータと9タクサを持つランダムツリーを使用してgnlsモデルに適合します。 require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) logLikから得られた推定パラメータに基づいて、対数尤度を「手で」（Rで、ただし関数を使用せずに）計算したいgnlsので、からの出力と一致しますlogLik(fit)。注：パラメーターを推定しようとはしていません。gnls関数によって推定されたパラメータの対数尤度を計算したいだけです（誰かがパラメータなしgnlsでパラメータを推定する方法の再現可能な例を持っているなら、私はそれを見ることに非常に興味があるでしょう！）。 Rでこれをどのように実行するかはよくわかりません。SとS-Plusの混合効果モデル（PinheiroとBates）で説明されている線形代数表記法は頭の上のもので、私の試みはどれも一致していませんlogLik(fit)。PinheiroとBatesが説明する詳細は次のとおりです。一般化された非線形最小二乗モデルの対数尤度ここで、 φ I = A I β次のように計算されます。yi=fi(ϕi,vi)+ϵiyi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕi=Aiβϕi=Aiβ\phi_i=A_i\beta l(β,σ2,δ|y)=−12{Nlog(2πσ2)+∑i=1M[||y∗i−f∗i(β)||2σ2+log|Λi|]}l(β,σ2,δ|y)=−12{Nlog⁡(2πσ2)+∑i=1M[||yi∗−fi∗(β)||2σ2+log⁡|Λi|]}l(\beta,\sigma^2,\delta|y)=-\frac 12 \Bigl\{ N\log(2\pi\sigma^2)+\sum\limits_{i=1}^M{\Bigl[\frac{||y_i^*-f_i^*(\beta)||^2}{\sigma^2}+\log|\Lambda_i|\Bigl]\Bigl\}} ここで、は観測値の数、f ∗ i（β ）= …

12 r maximum-likelihood least-squares nonlinear-regression mixed-model

タグ付けされた質問 「r」

タグ付けされた質問「r」