タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
ときの尤度の計算
私はこの事後分布を計算しようとしています: (θ | − )= ∏んi = 1py私私(1 − p私)1 − y私Σすべてθ 、p私| θΠんi = 1py私私(1 − p私)1 − y私(θ|−)=Π私=1んp私y私(1−p私)1−y私Σすべてθ、p私|θΠ私=1んp私y私(1−p私)1−y私 (\theta|-)=\frac{\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}}{\sum_{\text{all}\,\theta,p_i|\theta}\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}} 問題は、ベルヌーイ(p私、y私)ベルヌーイ(p私、y私)\text{Bernoulli}(p_i,y_i)確率の束の積である分子が小さすぎることです。(私のんんnは大きく、約1500です)。 したがって、すべての事後値はすべてθθ\theta0と計算されます(私はRで計算を行っています)。 明確にするために、各y私y私y_iは独自のp私p私p_i、これらのはn yのn要素のp私p私p_iベクトルを作成します。各θには、p iの独自のn要素ベクトルがあります。んんnんんn yyyθθ\thetaんんnp私p私p_iます。 編集:再現例の追加(分子用) p <- sample(seq(0,1,by=0.01), 1500, replace=T) y <- sample(c(0,1), 1500, replace=T) dbern(y, p) # 1500-element vector, each element is < 1 prod(dbern(y, p)) …

1
MLE /対数正規分布区間の可能性
以下のサンプルのように、間隔として表される応答の変数セットがあります。 > head(left) [1] 860 516 430 1118 860 602 > head(right) [1] 946 602 516 1204 946 688 ここで、左は応答の下限、右は応答の上限です。対数正規分布に従ってパラメーターを推定したい。 しばらくの間、可能性を直接計算しようとしたとき、2つの境界が異なるパラメーターのセットに沿って分布しているため、以下のようないくつかの負の値が得られるという事実に苦労していました。 > Pr_high=plnorm(wta_high,meanlog_high,sdlog_high) > Pr_low=plnorm(wta_low, meanlog_low,sdlog_low) > Pr=Pr_high-Pr_low > > head(Pr) [1] -0.0079951419 0.0001207749 0.0008002343 -0.0009705125 -0.0079951419 -0.0022395514 私は実際にそれを解決する方法を理解できず、代わりに間隔の中間点を使用することに決めました。これは、間隔応答の対数尤度を抽出するmledist関数を見つけるまで、良い妥協です。これは私が得る要約です: > mledist(int, distr="lnorm") $estimate meanlog sdlog 6.9092257 0.3120138 $convergence [1] 0 …

2
大規模データのSASの代替としてのR
SASのようなものは逐次分析を行うのに対し、Rはすべてのデータをメモリにロードすることを考えると、Rは大きなデータセットの分析には特に役立ちません。とはいえ、ユーザーがRでより効率的に大規模データ分析(統計分析)を実行できるようにするbigmemoryのようなパッケージがあります。 私は、すべての理論的な情報とは別に、エンタープライズ環境で大規模なデータセットを分析するためにRを使用したり使用したりしている人や、発生する可能性のある典型的な問題を知りたいと思っていました。大きなデータセットとは、サイズが最大200 GBのデータセットを指します。また、そのようなユースケースでSASからRに移行する実際の例についての考えは参考になります。
8 r  sas  large-data 

2
tbatsモデルから予測サンプルパスをシミュレートする
Rob Hyndmanによる優れた予測パッケージを使用して、予測間隔を設けるだけでなく、複雑な季節性を持つ時系列の過去の観測を考慮して、将来のパスをシミュレートする必要性に遭遇しました。季節性が1つまたは2つしかない、それほど複雑ではない時系列用のものがあります(forecastパッケージのSimulate.ets())。ただし、私の場合、より複雑なtbatsモデルには、simulate.ets()と同等のものが必要になります。 そのようなパスを作成するために必要なデータは既にフィットオブジェクトに存在していると思いますが、サンプルパスを作成する可能性には直接アクセスできないようです。したがって、私は素朴な解決策を考え出し、このアプローチが正しいかどうかを知りたいと思います。 require(forecast) fit = bats(test,use.parallel=T,use.damped.trend=F,use.trend=T,seasonal.periods=seasonal.periods) 単純に、からのポイント予測を使用してサンプルパスを構築できると思います fit > forecast(fit) Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 1960.016 24.48576 23.82518 25.14633 23.47550 25.49602 1960.032 24.79870 23.88004 25.71735 23.39374 26.20366 1960.048 25.31743 24.39878 26.23608 23.91247 26.72239 1960.065 25.69254 24.77389 26.61120 24.28759 27.09750 1960.081 26.06863 25.14998 26.98729 24.66367 …

1
Rに負の二項回帰を適合させることができません(公開された結果を複製しようとしています)
最近公開された記事の結果を再現しようとすると、 アギオン、フィリップ、ジョンヴァンリーネン、ルイージジンガレス。2013.「イノベーションと制度的所有権」。American Economic Review、103(1):277-304。 (データとスタタのコードは、http: //www.aeaweb.org/aer/data/feb2013/20100973_data.zipで入手できます)。 Rの最初の5つの回帰を(OLSとポアソン法を使用して)再作成しても問題はありませんが、Rで負の二項回帰結果を再作成できません。 具体的には、ここで私が作成したRコードは、データに対して負の二項回帰を実行できません。 library(foreign) library(MASS) data.AVRZ <- read.dta("results_data2011.dta", convert.underscore=TRUE) sicDummies <- grep("Isic4", names(data.AVRZ), value=TRUE) yearDummies <- grep("Iyear", names(data.AVRZ), value=TRUE) data.column.6 <- subset(data.AVRZ, select = c("cites", "instit.percown", "lk.l", "lsal", sicDummies, yearDummies)) data.column.6 <- na.omit(data.column.6) glm.nb(cites ~ ., data = data.column.6, link = log, control=glm.control(trace=10,maxit=100)) 上記をRで実行すると、次の出力が得られます。 Initial …

2
R出力解釈からのAnova
統計学者が通常anova出力をどのように解釈するかについて質問があります。Rからanova出力があるとします。 > summary(fitted_data) Call: lm(formula = V1 ~ V2) Residuals: Min 1Q Median 3Q Max -2.74004 -0.33827 0.04062 0.44064 1.22737 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.11405 0.32089 6.588 1.3e-09 *** V2 0.03883 0.01277 3.040 0.00292 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

3
2つの母集団で同じカテゴリ変数をテストするにはどうすればよいですか?
次のようなデータがあります。 ID Status 01 A 02 G 03 E ... ... 100 G あなたはアイデアを理解していると思います。2つの異なる母集団(コホート)からのこのデータがあり、ある母集団の状態変数の分布を別の母集団の分布と比較したいと思います。私が回答している質問は次のようなものです。あなたがこれ以上知らなければ、これらは同じ母集団からのものである可能性がありますか?確かではありませんが、これは人のカイ二乗を実行する必要があることを意味します。また、テストを実行できるように変数を変換する方法もわかりません。(私は特にこれをRで行う方法を知りたいです。)

1
ランダム効果の合計がGLMM(lme4を使用)でどれだけゼロに近いか
lme4R のパッケージを使用して、ロジスティック混合効果モデリングを行っています。 私の理解は、各変量効果の合計はゼロであるべきだということでした。 私が使用して混合モデル線形おもちゃを作るときはlmer、ランダム効果は、<通常、というのが私の信念を確認する のおもちゃ二項モデルではなく、(と私の本当の二項データのモデルで)をランダム効果の和の一部に〜 0.9。10−1010−1010^{-10}colSums(ranef(model)$groups) ~ 0 心配する必要がありますか?これをどのように解釈しますか? これは線形おもちゃの例です toylin<-function(n=30,gn=10,doplot=FALSE){ require(lme4) x=runif(n,0,1000) y1=matrix(0,gn,n) y2=y1 for (gx in 1:gn) { y1[gx,]=2*x*(1+(gx-5.5)/10) + gx-5.5 + rnorm(n,sd=10) y2[gx,]=3*x*(1+(gx-5.5)/10) * runif(1,1,10) + rnorm(n,sd=20) } c1=y1*0; c2=y2*0+1; y=c(t(y1[c(1:gn),]),t(y2[c(1:gn),])) g=rep(1:gn,each=n,times=2) x=rep(x,times=gn*2) c=c(c1,c2) df=data.frame(list(x=x,y=y,c=factor(c),g=factor(g))) (m=lmer(y~x*c + (x*c|g),data=df)) if (doplot==TRUE) {require(lattice) df$fit=fitted(m) plot1=xyplot(fit ~ x|g,data=df,group=c,pch=19,cex=.1) plot2=xyplot(y ~ …

4
R:lm()を使用した因子の平均と平均の標準誤差の計算と直接計算の編集
因子を含むデータを扱う場合、Rを使用してlm()関数で各グループの平均を計算できます。これにより、推定平均の標準誤差も得られます。しかし、この標準誤差は、手作業による計算から得られるものとは異なります。 ここに例があります(Rの2つのグループ間の違いを予測するここから取得) 最初にlm()で平均を計算します。 mtcars$cyl <- factor(mtcars$cyl) mylm <- lm(mpg ~ cyl, data = mtcars) summary(mylm)$coef Estimate Std. Error t value Pr(>|t|) (Intercept) 26.663636 0.9718008 27.437347 2.688358e-22 cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04 cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10 切片は、最初のグループである4気筒車の平均です。直接計算によって平均を取得するには、これを使用します。 with(mtcars, tapply(mpg, cyl, mean)) 4 6 8 26.66364 19.74286 15.10000 平均値の標準誤差を取得するには、サンプルの標準偏差を計算し、各グループの観測数で割ります。 with(mtcars, tapply(mpg, …

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

2
潜在クラス成長分析(LCGA)/成長混合モデル(GMM)を実行するために使用するRパッケージはどれですか?
Rで潜在クラス成長分析(LCGA)および/または成長混合モデル(GMM)を実行しようとしています。使用しているデータは、gitリポジトリ(離散変数、カテゴリーではない)のフォークの数が増えています。このデータセットを参照してください。 私はを試しlavaanましたが、潜在成長曲線モデルを適合させるのに役立ちましたが、潜在クラスを特定することはできませんでした。またpoLCA、を試してみましたが、これはカテゴリカルな多変数変数に対してのみ機能するため、どちらも不十分でした。 離散変数データで潜在クラス成長分析を実行するための最も適切なRパッケージは何ですか? 私がやりたい分析は、Qureshi&Fang(2010)の分析と似ています。 Qureshi、I.とFang、Y.2010。「オープンソースソフトウェアプロジェクトの社会化:成長混合モデリングアプローチ」、組織的研究手法(14:1)、ページ208–238。

2
Rを使用したARIMAの2つの季節期間
私は現在、これらの指示で時系列を予測するためにRを使用しています: X <- ts(datas, frequency=24) X.arima <- Arima(X, order=c(2,1,0), seasonal=c(1,1,1)) pred <- predict(X.arima, n.ahead=24) plot.ts(pred$pred) ご覧のとおり、1時間ごとにデータを取得し、24(1日)の季節期間を選択しました。 週の季節要素を含めるために、追加の季節期間を使用して予測を改善したい(季節の長さ7 * 24 = 168データ) これには何らかの方法がありますか?どうやってやるの? 更新: 私はこの(あなたの)ブログページを読みました。おそらく、外部のリグレッサを使用して2番目の季節期間をシミュレートできますか?

5
2Dデータの平滑化
データは、さまざまな時間に記録された光学スペクトル(周波数に対する光強度)で構成されています。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。特定の周波数での時間発展を分析するために(急上昇、続いて指数関数的減衰)、データに存在するノイズの一部を削除したいと思います。このノイズは、固定周波数の場合、ガウス分布のランダムとしてモデル化できます。ただし、一定の時間に、データは異なる種類のノイズを示し、大きなスプリアススパイクと高速振動(+ランダムガウスノイズ)を伴います。2つの軸に沿ったノイズは物理的な起源が異なるため、相関関係がないはずです。 データを平滑化するための合理的な手順は何ですか?目標は、データを歪めることではなく、「明白な」ノイズの多いアーティファクトを削除することです。(そして、過度のスムージングは​​調整/定量化できますか?)1つの方向に沿って他の方向から独立してスムージングすることが意味があるのか​​、それとも2Dでスムージングする方が良いのかわかりません。 2Dカーネル密度推定、2D多項式/スプライン補間などについて読みましたが、専門用語や基礎となる統計理論に精通していません。 私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。 あなたが私を指摘する特定の参照があれば、私はもっと学ぶことができて嬉しいです(MASSは良い本だと思いますが、おそらく非統計家には技術的すぎるかもしれません)。 編集:データを表すダミーのスペクトログラムは、時間と波長の次元に沿ったスライスです。 ここでの実際的な目標は、各波長(またはノイズが多すぎる場合はビン)の指数関数的減衰率を時間で評価することです。

2
Rのニューラルネットワークを使用した時系列予測の例
誰もnnetが予測のためにニューラルネットワーク(Rなど)を使用する簡単な短い教育例を持っていますか? これは時系列のRの例です T <- seq(0,20,length=200) Y <- 1 + 3*cos(4*T+2) +.2*T^2 + rnorm(200) plot(T,Y,type="l") これはほんの一例ですが、私が持っているのは、季節変動の激しいデータです。

1
コックス比例ハザードに複数の代入を使用してから、rmsパッケージで検証しますか?
私はマウスパッケージを研究していますが、複数の代入を使用してCoxモデルを作成し、そのモデルをrmsパッケージのvalidate()機能で検証する方法をまだ発見していません。データセットを使用した、これまでのサンプルコードを次に示しますveteran。 library(rms) library(survival) library(mice) remove(veteran) data(veteran) veteran$trt=factor(veteran$trt,levels=c(1,2)) veteran$prior=factor(veteran$prior,levels=c(0,10)) #Set random data to NA veteran[sample(137,4),1]=NA veteran[sample(137,4),2]=NA veteran[sample(137,4),7]=NA impvet=mice(veteran) survmod=with(veteran,Surv(time,status)) #make a CPH for each imputation for(i in seq(5)){ assign(paste("mod_",i,sep=""),cph(survmod~trt+celltype+karno+age+prior, data=complete(impvet,i),x=T,y=T)) } #Now there is a CPH model for mod_1, mod_2, mod_3, mod_4, and mod_5. さて、CPHモデルを1つだけ使用していた場合は、次のようにします。 validate(mod_1,B=20) 私が抱えている問題は、5つのCPHモデル(代入ごとに1つ)を取得し、で使用できるプールされたモデルを作成する方法rmsです。miceパッケージにいくつかの組み込みのプール関数があることは知っていますが、それらがのcphオブジェクトで機能するとは思いませんrms。ここでのキーはrms、プール後も引き続き使用できることです。私はハレルのaregImpute()関数の使用を調査しましたが、例とドキュメントに従っていくらか問題があります。 mice使用する方が簡単なようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.