タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
Rを使用して「ホワイトハウスへのパス」を計算する方法
視覚的で面白くて美しいこの素晴らしい分析に出会いました。 http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html Rを使用してこのような「パスツリー」を構築する方法を知りたいのですが、そのようなパスツリーを構築するにはどのようなデータとアルゴリズムが必要ですか。 ありがとう。

1
カウントデータの非季節化
Rでstl()を使用して、カウントデータをトレンド、季節、不規則なコンポーネントに分解しました。結果のトレンド値は、もはや整数ではありません。次の質問があります。 stl()はカウントデータを非季節化する適切な方法ですか? 結果のトレンドはもはや整数値ではないため、lm()を使用してトレンドコンポーネントをモデル化できますか?

2
ランダムフォレスト:変数が重要であることがわかっている場合
私の理解では、ランダムフォレストはランダムにmtry変数を選択して各決定ツリーを構築します。したがって、mtry = ncol / 3の場合、各変数は平均してツリーの1/3で使用されます。そして、ツリーの2/3はそれらを使用しません。 しかし、単一の変数がおそらく非常に重要であることを知っている場合、この変数が各ツリーで選択される確率を手動で増やすとよいでしょうか?RのrandomForestパッケージで実現可能ですか?

1
Rの反復測定による線形回帰
反復測定設計のために、R inで線形回帰を実行する方法を理解できませんでした。で前の質問(まだ未回答)には使用しないように私に示唆されたlmのではなく混合モデルを使用します。私lmは次のように使用しました: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (データセットの詳細については、上記のリンクをご覧ください) ただし、インターネット上で、線形回帰分析の実行方法を示すRコードの例を見つけることができませんでした。 私が欲しいのは、一方でデータにフィットする線でデータをプロットし、他方でモデルの有意性の検定のための値とp値です。R2R2R^2 いくつかの提案を提供できる人はいますか?Rのコード例はどれも非常に役立ちます。 編集 これまでに受け取った提案によると、2つの変数Velocity_response(アンケートから派生)とVelocity(パフォーマンスから派生)の間に線形関係があるかどうかを理解するために、データを分析するソリューションは次のようになります。 library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) 要約の結果はこれを与えます: > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by REML Data: scrd AIC BIC logLik 104.2542 126.1603 -30.1271 Random effects: Formula: ~1 | Subject (Intercept) Residual StdDev: …

3
異常検出の欠損値を含む時系列のSTL
私は、時系列の気候データから異常値を検出しようとしていますが、いくつかの観測値が欠落しています。Webを検索すると、利用可能な多くのアプローチが見つかりました。これらのうち、トレンドおよび季節成分を除去し、残りを調査するという意味で、stl分解は魅力的であるように思われます。STLの読み取り:黄土に基づく季節トレンド分解手順はstl、外れ値の影響を受けず、値が欠落していても適用できる変動性の割り当て設定を柔軟に決定できるようです。しかし、R4年の観察でそれを適用しようとし、http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.htmlに従ってすべてのパラメータを定義すると、私は遭遇しますエラー: "time series contains internal NAs"(when na.action=na.omit)、および "series is not periodic or has less than two periods"(when na.action=na.exclude)。 周波数が正しく定義されていることを再確認しました。ブログで関連する質問を見てきましたが、これを解決できる提案は見つかりませんでした。stl欠損値があるシリーズに適用することはできませんか?アーティファクトを導入する(および結果として検出する)ことは望ましくないため、それらを補間することは非常に嫌です。同じ理由で、代わりにARIMAアプローチを使用することがいかに望ましいかはわかりません(値の欠落が依然として問題になる場合)。 stl欠損値のあるシリーズに適用する方法を知っている場合、私の選択が方法論的に適切でないと思われる場合、またはより良い提案がある場合は共有してください。私はこの分野ではかなり新しく、関連情報の山(一見...)に圧倒されています。

1
疎データに基づく共分散行列の固有およびsvd分解が異なる結果をもたらすのはなぜですか?
スパース/ギャップのあるデータセットに基づいて共分散行列を分解しようとしています。で計算されたラムダ(説明された分散)の合計がsvd、ますますギャップのあるデータで増幅されていることに気付きました。隙間なく、svdかつeigen同じ結果をyeild。 これはeigen分解では発生しないようです。svdラムダ値は常に正であるため、私は使用に傾いていましたが、この傾向は心配です。適用する必要がある何らかの修正がありますか、またはsvdこのような問題を完全に回避する必要がありますか? ###Make complete and gappy data set set.seed(1) x <- 1:100 y <- 1:100 grd <- expand.grid(x=x, y=y) #complete data z <- matrix(runif(dim(grd)[1]), length(x), length(y)) image(x,y,z, col=rainbow(100)) #gappy data zg <- replace(z, sample(seq(z), length(z)*0.5), NaN) image(x,y,zg, col=rainbow(100)) ###Covariance matrix decomposition #complete data C <- cov(z, use="pair") E <- eigen(C) …
12 r  svd  eigenvalues 

2
randomForestは分類の代わりに回帰を選択します
私が使用しているランダムフォレスト Rパッケージを虹彩データを用いて、生成されたランダムフォレスト、分類であるが、私は約700の機能とデータセットを使用する場合(機能が28x28ピクセルの画像の各画素である)と、ラベル列の名前はlabel、randomForest生成されるのは回帰です。私は次の行を使用しています: rf <- randomForest(label ~ ., data=train) 分類の代わりに回帰が使用されるのはなぜですか?データはを介して読み込まれますread.csv()。
12 r  random-forest 

4
有馬以前または有馬内の時系列の差
Arimaを使用する前にシリーズを区別すること(それが必要であると仮定)またはArima内でdパラメーターを使用する方が良いですか? 同じモデルとデータでどのルートを採用するかによって、適合値がどのように異なるかは驚きました。それとも私は間違って何かをしていますか? install.packages("forecast") library(forecast) wineindT<-window(wineind, start=c(1987,1), end=c(1994,8)) wineindT_diff <-diff(wineindT) #coefficients and other measures are similar modA<-Arima(wineindT,order=c(1,1,0)) summary(modA) modB<-Arima(wineindT_diff,order=c(1,0,0)) summary(modB) #fitted values from modA A<-forecast.Arima(modA,1)$fitted #fitted from modB, setting initial value to the first value in the original series B<-diffinv(forecast.Arima(modB,1)$fitted,xi=wineindT[1]) plot(A, col="red") lines(B, col="blue") 追加: 私は一度シリーズを区別し、arima(1,0,0)を当てはめ、その後、arima(1,1,0)を元のシリーズに当てはめていることに注意してください。私は、差分ファイル上のarima(1,0,0)の適合値の差分を逆にしています(と思います)。 予測ではなく、適合値を比較しています。 以下がプロットです(赤はarima(1,1,0)、青は元のスケールに戻った後の差分系列のarima(1,0,0)です): ハインドマン博士の回答に対する回答: 1)Arima(1,1、 0)と手動で異なるシリーズのArima(1,0,0)?これはmodAに含まれていないという意味に関係していると思いますが、どうすればいいのか完全にはわかりません。 …
12 r  time-series  arima 

1
複数の予測子を持つロジットモデルの確率曲線のグラフ化
次の確率関数があります。 確率= 11 + e− zプロブ=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} どこ z= B0+ B1バツ1+ ⋯ + Bnバツn。z=B0+B1バツ1+⋯+Bnバツn。z = B_0 + B_1X_1 + \dots + B_nX_n. 私のモデルは次のように見えます Pr (Y= 1 )= 11 + exp(− [ − 3.92 + 0.014 × (bid )] )Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(入札)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} これは、以下のような確率曲線を介して視覚化されます。 元の回帰式にいくつかの変数を追加することを検討しています。性別(カテゴリ:FおよびM)および年齢(カテゴリ:<25および> …

1
複雑なモデルを大きなデータセットに繰り返し当てはめるときに計算効率を最適化するにはどうすればよいですか?
MCMCglmmR のパッケージを使用して混合効果モデルを実行すると、パフォーマンスの問題が発生します。コードは次のようになります。 MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) データには約20,000の観測があり、それらは約200の学校に集中しています。実行する前に、未使用の変数をすべてデータフレームから削除し、他のすべてのオブジェクトをメモリから削除しました。私が抱えている問題は、反復を許容できないほど小さな数に減らしない限り、実行に非常に長い時間がかかることです。50,000回の反復により、5時間かかり、実行する多くの異なるモデルがあります。したがって、コードの実行を高速化する方法、または使用できる他のパッケージがあるかどうかを知りたいと思います。MCMCglmmランダム効果の信頼区間が必要なため、使用しています。 一方で、私は今年後半に新しいPCを手に入れたいと思っていましたが、少し運が良ければそれを前に出すことができるかもしれないので、新しいハードウェアに限られた金額を使うにはどうすればいいですか? 、CPUの高速化など。タスクマネージャーを見ると、RAMが問題であるとは思いません(物理的な使用量の50%を超えることはありません)。 。私の現在のセットアップは、Intel Core i5 2.66GHz、4GB RAM、7200rpm HDDです。追加のRAMを犠牲にして、できるだけ高速なCPUを取得することは合理的ですか?また、このような統計計算の問題に対するレベル3のCPUキャッシュサイズの影響についても疑問に思いましたか? アップデート:たSOメタに尋ねた私は、スーパーユーザーの質問およびポストを修正してくださいすることをお勧めされています。そのためには、MCMCglmmで「内部」で何が行われているかについて、より詳細に説明する必要があります。計算時間の大部分が最適化に費やされていると考えるのは正しいですか?つまり、いくつかの複雑な関数の最大値を見つけるということですか?行列の反転や他の線形代数演算もボトルネックの原因となる一般的な演算ですか?私がスーパーユーザーコミュニティに提供できるその他の情報は、最もありがたいことに受信されます。

2
機能データをシミュレートする方法は?
さまざまな機能データ分析アプローチをテストしようとしています。理想的には、シミュレートされた機能データでのアプローチのパネルをテストしたいと思います。ガウスノイズの加算に基づくアプローチ(以下のコード)を使用してシミュレートされたFDを生成しようとしましたが、結果の曲線は実際のものと比較して非常に頑丈に見えます。 もっとリアルな見た目の機能データを生成するための関数/アイデアへのポインタがあるのか​​と思っていました。特に、これらは滑らかでなければなりません。私はこの分野に完全に慣れていないので、どんなアドバイスも歓迎します。 library("MASS") library("caTools") VCM<-function(cont,theta=0.99){ Sigma<-matrix(rep(0,length(cont)^2),nrow=length(cont)) for(i in 1:nrow(Sigma)){ for (j in 1:ncol(Sigma)) Sigma[i,j]<-theta^(abs(cont[i]-cont[j])) } return(Sigma) } t1<-1:120 CVC<-runmean(cumsum(rnorm(length(t1))),k=10) VMC<-VCM(cont=t1,theta=0.99) sig<-runif(ncol(VMC)) VMC<-diag(sig)%*%VMC%*%diag(sig) DTA<-mvrnorm(100,rep(0,ncol(VMC)),VMC) DTA<-sweep(DTA,2,CVC) DTA<-apply(DTA,2,runmean,k=5) matplot(t(DTA),type="l",col=1,lty=1)

2
与えられたデータセットの確率分布を自動的に決定する
データセットが与えられた場合: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..パラメータの推定により、最も適切な確率分布(ガンマ、ベータ、正規、指数、ポアソン、カイ2乗など)を決定したいと思います。Rを使用して解決策が提供されている次のリンクの質問をすでに知っています:https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-連続一変量分布-f 最適な提案ソリューションは次のとおりです。 > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, 'exponential')$loglik #$ そして、loglik値が最小の分布が選択されます。ただし、ベータ分布などの他の分布では、fitdistr()関数でいくつかの追加パラメーターを指定する必要があります。 fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 事前情報なしで最適な分布を決定しようとしていることを考えると、各分布のパラメーターの値がどのようになる可能性があるのか​​わかりません。この要件を考慮に入れる別のソリューションはありますか?Rにある必要はありません。

1
rjagsで予測を生成する方法は?
JAGS言語で指定されたモデルでrjagsを使用してMCMCを実行しました。そのモデルを抽出し、それを使用して予測を実行する良い方法はありますか(私のパラメーターの事後分布を使用)?Rでモデルを再指定し、パラメータ事後のモードをプラグインできます。これを行うための余計な方法はないかと思っています。 http://sourceforge.net/p/mcmc-jags/discussion/610037/thread/0ecab41cも同じ質問をしていると思います。
12 r  jags 

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
ロジスティッククォンタイル回帰–結果を最適に伝える方法
以前の投稿で、EQ-5Dスコアをどのように扱うかを考えました。最近、BottaiとMcKeownが提案したロジスティッククォンタイル回帰に出くわしました。式は簡単です: L O Gi t (y)= l o g(y− yM I nはymは、Xが− y)log私t(y)=log(y−ym私nymaバツ−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) 回避ログ(0)と0で除算するには、小さな値で範囲を拡張。これにより、スコアの境界を尊重する環境が得られます。ϵϵ\epsilon 問題は、すべてのがロジットスケールになり、通常のスケールに変換し直さなければ意味がないことですが、それはβが非線形であることを意味します。グラフ作成の目的では、これは重要ではありませんが、βの数が多い場合は問題になりません。ββ\betaββ\betaββ\beta 私の質問: フルスパンを報告せずにロジットを報告するにはどうすればよいですか?ββ\beta 実装例 実装をテストするために、この基本機能に基づいたシミュレーションを作成しました。 o u t c o m e = β0+ β1∗ x t e s t3+ β2∗ s e xoあなたはtcome=β0+β1∗バツtest3+β2∗seバツoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex ここで、、β 1 = 0.5及びβ 2 = 1。スコアには上限があるため、4以上および-1未満の結果値を最大値に設定しました。β0= 0β0=0\beta_0 = 0β1= 0.5β1=0.5\beta_1 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.