タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
スパース性のこの解釈は正確ですか?
パッケージのremoveSparseTerms関数のドキュメントによるとtm、これはスパース性が伴うものです: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. では、これがsparse.99に等しいかどうかを正しく解釈すると、データの最大1%にしか出現しない用語が削除されますか?

1
lsmeansは、ポアソン混合モデル(glmerに適合)などの一般化線形モデルについて何を報告しますか?
私は計画された実験からの視線追跡データを分析しています。私のデータの簡略版は次のようになります(ここで dput()データを取得できます)、 head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 ここで、参加者は各サブジェクトの一意の識別子、fixationImageは固定した画像カテゴリ、fixationCountはその画像カテゴリに固定した回数です。 lme4パッケージの glmer()を使用して、ポアソンモデルをデータに適合させます。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) lsmeansパッケージの lsmeans()を使用して、因子レベル間の違いを調べました。 cld(lsmeans(model,"fixationImage")) 次の出力を提供します。 fixationImage lsmean …

2
Rでのコルモゴロフスミルノフ検定の検出力を計算できますか?
Rでの両側Kolmogorov Smirnovテストの電力分析を実行することは可能ですか? 私はks.test()を使用して2つの経験的分布が異なるかどうかをテストしており、電力分析を追加しようとしています。 RでKSテストの組み込み電力分析を見つけることができませんでした。何か提案はありますか? 編集:これらはランダムに生成された分布であり、私のデータに非常に近似しています(真のサンプルサイズと指数分布の推定減衰率を使用) set.seed(100) x <- rexp(64, rate=0.34) y <- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) これらのデータは、2つの異なるグループのボディサイズの測定値です。2つのグループの分布は基本的に同じであることを示したいのですが、サンプルサイズに基づいてそれを言う力があるかどうか共同編集者から尋ねられました。ここでは指数分布からランダムに抽出しましたが、これらは実際のデータに近いものです。 これまでのところ、両側KS検定に基づくこれらの分布に有意差はないと述べました。2つの分布もプロットしました。xとyのサンプルサイズと減衰率を考えると、そのようなステートメントを作成する能力があることをどのように示すことができますか?

1
ベイジアンA / Bテストの式が意味をなさない
ベイジアン手法を使用してABテストの結果を計算するために、ベイジアンabテストの式を使用しています。 Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA)Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA) \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} どこ 1プラス Aの成功数αAαA\alpha_A 1プラス Aの失敗数βAβA\beta_A 1プラス Bの成功数αBαB\alpha_B 1プラス Bの失敗数βBβB\beta_B はベータ関数ですBBB データの例: control: 1000 trials with 78 successes test: 1000 trials with 100 successes 標準的な非ベイジアンプロップテストでは、重要な結果が得られます(p <10%): prop.test(n=c(1000,1000), x=c(100,78), correct=F) # 2-sample test for equality of proportions without continuity correction # # data: …
10 r  bayesian  ab-test 

2
lme4を使用した混合効果モデルの交互作用項のP値
私はを使用lme4していくつかの行動データを分析していますがR、主にBodo Winterの優れたチュートリアルに従っていますが、インタラクションを適切に処理しているかどうかわかりません。さらに悪いことに、この研究に関与している他の誰も混合モデルを使用していないので、物事が正しいことを確認することに関して、私は少しドリフトしています。 助けを求める叫びを投稿するのではなく、私は問題を解釈するために最善の努力をし、それからあなたの集団的な修正を頼むべきだと思いました。他のいくつかのサイドは次のとおりです。 執筆中に、この質問を見つけました。nlme相互作用項のp値をより直接的に与えることを示していますが、との関係で尋ねることは依然として有効だと思いますlme4。 Livius'この質問への回答には、今後数日で読み進めようとする追加の読み物へのリンクが含まれているので、進展があった場合はコメントします。 私のデータでは、私は、従属変数持ちdv、condition操作(高になるはずである0 =制御、1 =実験条件、dv)、また、ラベルされた前提条件、appropriateコード化された臨床試験:1このためには、効果を示す必要がありますが、試験がコード化された0かもしれないが重要な要素がないためです。 また、各対象内の、および解決された14の各問題内の相関値を反映するsubject、およびの2つのランダムな切片も含めました(各参加者は、各問題のコントロールバージョンと実験バージョンの両方を解決しました)。targetdv library(lme4) data = read.csv("data.csv") null_model = lmer(dv ~ (1 | subject) + (1 | target), data = data) mainfx_model = lmer(dv ~ condition + appropriate + (1 | subject) + (1 | target), data = data) interaction_model = lmer(dv ~ condition …

3
stlまたは分解のどちらが良いですか?
私はRを使用して時系列分析を行っています。データをトレンド、季節、ランダムコンポーネントに分解する必要があります。3年間の週次データがあります。R stl()とに2つの関数が見つかりましたdecompose()。stl()乗法分解に適さないことを読んだことがあります。これらの機能を使用できるシナリオを誰かに教えてもらえますか?
10 r  time-series 

3
ブートストラップ回帰から係数のp値を取得するにはどうすればよいですか?
Robert KabacoffのQuick-Rから # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) # view …

1
比率の2標本比較、標本サイズ推定:RとStata
比率の2標本比較、標本サイズ推定:RとStata 次のように、サンプルサイズの結果が異なります。 でR power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 結果:各グループの(つまり 161)。n=160.7777n=160.7777n = 160.7777 Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 結果:各グループで。n=174n=174n = 174 なぜ違いがあるのですか?ありがとう。 ところで、私はSAS JMPで同じサンプルサイズ計算を実行しました。結果は(Rの結果とほとんど同じです)。n=160n=160n = 160

1
GLMの対数尤度
次のコードでは、glmを使用してグループ化されたデータとmle2を使用して「手動」でロジスティック回帰を実行します。RのlogLik関数で対数尤度logLik(fit.glm)=-2.336が得られるのはなぜですか。手作業で取得したものとは異なります。 library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit <- function(x) { exp(x) / (1+exp(x))} nloglike <- function(a,b) { L <- 0 for (i in 1:n){ L <- L + sum(y[i,1]*log(invlogit(a+b*x[i])) …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
Rでの反復測定ANOVAでのError()項の指定
Rでの2方向反復測定分散分析の誤差項の定義に問題があります。私のデータは、木から抽出されたコアに沿った3つの半径方向位置(内側、中央、および外側)の木材密度推定から構成されています。合計20の木の種、各種の6個体、および各木からの2つのコアがあります。 半径方向の位置が木材の密度に及ぼす影響をテストするために、個人間のばらつきを説明する誤差項を含む次の2元配置分散分析モデルを使用します。 radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) ただし、エラー項の指定が適切かどうかはわかりません。コア内の変動性も考慮する必要がありますか?私にとって、この変動性は、私が興味を持っている主な要因である放射状の位置による変動と同じです。 繰り返し測定ANOVAでの誤差項の指定について読むことに少し時間を費やしましたが、実際には誤差項の指定に問題があります。私はこれでいくつかの助けに感謝します。

2
REML対ML stepAIC
AICを使用して最適なモデルを選択した後、混合モデル分析を実行する方法に関する文献を調べようとしたところ、私は圧倒されました。私のデータはそれほど複雑ではないと思いますが、私が行ったことが正しいことの確認を求めており、次に進む方法についてアドバイスします。lmeとlmerのどちらを使用する必要があるのか​​、またREMLとMLのどちらを使用する必要があるのか​​、どちらを使用するのかわかりません。 選択の値があり、どの共変量がその値に最も影響を与え、予測を可能にするかを知りたいです。以下は、私が作業しているテストのサンプルデータとコードの一部です。 ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 私は、さまざまな組み合わせと最大2ウェイの相互作用項でこのデータを探索する最大19のモデルを持っていますが、常に変量効果としてIDを使用し、従属変数としてcomp1を使用しています。 Q1。どちらを使用しますか?lmeまたはlmer?それは重要ですか? これらの両方で、MLまたはREMLを使用するオプションがあり、劇的に異なる答えが得られます-MLの後にAICを使用すると、6つのモデルがすべて同じAIC値で終わり、モデルの組み合わせは単に意味がありませんが、REML最も可能性の高いモデルの2つが最良の結果になります。ただし、REMLを実行すると、anovaを使用できなくなります。 Q2。ANOVAで使用するためにREMLよりもMLを使用する主な理由は何ですか?これは私には分かりません。 それでもstepAICを実行できないか、19のモデルを絞り込む別の方法がわかりません。 Q3。この時点でstepAICを使用する方法はありますか?

3
Winbugsおよびその他のMCMC(事前配布の情報なし)
パラメータの分布がわからない場合はどうなりますか?どのアプローチを使用する必要がありますか? ほとんどの場合、特定の変数が特定の種の存在/不在に何らかの影響を及ぼし、その変数が変数の重要度に従って受け入れられるかどうかについては、十分に検討することを目指しています。これは、ほとんどの場合、パラメーターが持つはずの推定分布については考えていません。 b1、b2、b3およびb4が-2と2の間で変化し、b0が-5と5の間で変化する可能性があることを私が知っているすべてのパラメーターが正規分布に従うと仮定することは正しいですか? model { # N observations for (i in 1:N) { species[i] ~ dbern(p[i]) logit(p[i]) <- b0 + b1*var1[i] + b2*var2[i] + b3*var3[i] + b4*var4[i] } # Priors b0 ~ dnorm(0,10) b1 ~ dnorm(0,10) b2 ~ dnorm(0,10) b3 ~ dnorm(0,10) b4 ~ dnorm(0,10) }
10 r  bayesian  mcmc  bugs  winbugs 

2
予測エラーをテストするためのGAM交差検証
私の質問は、mgcv RパッケージのGAMを扱います。サンプルサイズが小さいため、1対1の交差検証を使用して予測エラーを特定したいと思います。これは妥当ですか?どうすればこれを行うことができるパッケージまたはコードがありますか?ipredパッケージのerrorest()関数は機能しません。簡単なテストデータセットは次のとおりです。 library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) summary(b) pred <- predict(b, type="response") ご協力ありがとうございます!
10 r  cross-validation  gam  mgcv 

3
時系列間の類似点を見つける方法は?
次の例では、海の5つの水深で記録された水温測定の時系列で構成されるデータフレームがあり、各値はTempの日付DateTimeと水深に対応していますDepth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = 8760), …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.