タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
データ分析のベストプラクティスについて学ぶためにgithubでフォローすべき人は誰ですか?
専門家のデータ分析コードを調べると役立ちます。私は最近githubを熟読しており、そこにデータ分析コードを共有する多くの人々がいます。これには、いくつかのRパッケージ(もちろんCRANから直接入手可能)が含まれますが、特にRを使用した再現性のある研究の例もあります(githubのこのRリストを参照)。 データ分析のベストプラクティスについて学ぶためにgithubでフォローする良い人は誰ですか? 必要に応じて、どのような種類のコードを共有し、なぜこれが役立つのですか?

4
GLMの疑似R 2乗式
擬似公式は、Rによる線形モデルの拡張、Julian J. Faraway(p。59)の本で見つけました。R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 これはGLMの疑似一般的な式ですか?R2R2R^2

3
Rでブートストラップを使用してp値を計算する
「ブート」パッケージを使用して、近似の両側ブートストラップp値を計算しますが、結果はt.testを使用したp値から遠すぎます。Rコードで何が間違っていたかわかりません。誰かが私にこのヒントを教えてください time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) > abs(b3$t0)) pvalue 両側のブートストラップp値(pvalue)= 0.4804ですが、t.testの両側p値は0.04342です。両方のp値は約11倍の差があります。これはどのように起こりますか?

3
Rで時系列に注意を払う
振り返ってみると、時系列分析を初めて開始したときのことです。どのツール、Rパッケージ、インターネットリソースについて知りたいですか? 私が尋ねようとしているのは、どこから始めればいいですか?具体的には、Rを使用した時系列分析に「新しい」人のために、実際にそれを要約するRのリソースがあります。
28 r  time-series 

3
Rの離散均一分布のデフォルト関数はありますか?
Rのほとんどの標準分布には、pdf / pmf、cdf / cmf、変位値、ランダム偏差(dnorm、pnorm、qnorm、rnormなど)のコマンドファミリがあります。 いくつかの標準コマンドを使用して離散均一分布のこれらの関数を再現するのは簡単ですが、Rの離散均一分布をモデル化するための組み込み関数の好ましい組み込みファミリは既にありますか?


26
日常業務で最も役立つと思うRパッケージは何ですか?
スレッドの複製: 最新バージョンのRをインストールしました。どのパッケージを入手すればよいですか? データを使った日々の作業を想像できなかったRパッケージとは何ですか?一般的なツールと特定のツールの両方をリストしてください。 更新:ggplot224.10.10は7票の勝者のようです。 複数の言及された他のパッケージは次のとおりです。 plyr -4 RODBC、RMySQL-4 sqldf -3 lattice -2 zoo -2 Hmisc/rms -2 Rcurl -2 XML -2 回答ありがとうございます!
28 r 

3
変数選択を実行するときに多重共線性に対処する方法は?
9つの連続した独立変数を持つデータセットがあります。私はこれらの変数の中から選択して、モデルを単一のパーセンテージ(従属)変数に適合させようとしていますScore。残念ながら、いくつかの変数の間には深刻な共線性があることがわかっています。 私はstepAIC()変数選択のためにR の関数を使用しようとしましたが、奇妙なことに、その方法は変数が方程式にリストされている順序に敏感なようです... Rコードは次のとおりです(パーセンテージデータであるため、スコアにはロジット変換を使用します)。 library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 何らかの理由で、方程式の先頭にリストされている変数がstepAIC()関数によって選択されることになり、結果は、たとえばVar9最初に(チルダに続いて)リストすることで操作できることがわかりました。 ここでモデルを適合させるより効果的な(そして論争の少ない)方法は何ですか?私は実際に線形回帰を使用することについては行き詰まっているわけではありません。私が望むのは、9つの変数のどれが変数の変動を本当に引き起こしているかを理解できることScoreです。これは、これらの9つの変数の共線性の強力な可能性を考慮に入れた方法であることが望ましい。

4
Rで次元削減を行う方法
私は、a(i、j)が個々のiがページjを閲覧した回数を教えてくれるマトリックスを持っています。27Kの個人と95Kのページがあります。一緒に表示されることが多いページのセットに対応するページのスペースに、いくつかの「ディメンション」または「アスペクト」を持ちたいと思います。私の最終的な目標は、次元1、次元2などに該当するページを個人がどれだけ頻繁に閲覧したかを計算できるようにすることです。 主成分分析と単一値分解に関するRのドキュメントを読んで、これらのコマンドを実行しましたが、どのように進めたらよいかわかりません。 次元削減を使用してこれを行うにはどうすればよいですか?または、これは本当にクラスタリングの問題であり、代わりにクラスタリングアルゴリズムを調べる必要がありますか? 洞察力に感謝します〜l

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Rを使用した次元削減のためのt-SNEとPCAの何が問題になっていますか?
336x256の浮動小数点数(336の細菌ゲノム(列)x 256の正規化されたテトラヌクレオチド頻度(行)の行列があります。たとえば、各列の合計は1です)。 主成分分析を使用して分析を実行すると、素晴らしい結果が得られます。最初にデータのkmeansクラスターを計算してから、PCAを実行し、2Dおよび3Dの初期kmeansクラスタリングに基づいてデータポイントを色付けします。 library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 

2
ARIMAの値p、d、qは何ですか?
arimaR の関数では、どういうorder(1, 0, 12)意味ですか?割り当てることができる値どのようなものがありp、d、q、およびそれらの値を見つけるためのプロセスは何ですか?
27 r  time-series  arima 

1
モデルから項を削除した後の適切な残留自由度
この質問に関する議論、特にフランク・ハレルのコメントについて、縮小モデル(つまり、多くの説明変数がテストされ、棄却されたモデル)の分散の推定には、Yeの一般化された自由度を使用する必要があると考えています。ハレル教授は、これが最終モデル(多くの変数が拒否された)からのものよりも、元の「完全な」モデル(すべての変数を含む)の残留自由度にはるかに近いと指摘します。 質問1.縮約モデルからのすべての標準的な要約と統計に適切なアプローチを使用したい場合(ただし、一般化された自由度の完全な実装が不足している場合)、残差分散などの推定における完全なモデル? 質問2.上記が真実で、私がそれをやりたいなら、R設定と同じくらい簡単かもしれません finalModel$df.residual <- fullModel$df.residual モデル適合の演習のある時点で、finalModelとfullModelがlm()または同様の関数で作成されました。その後、summary()やconfint()などの関数が目的のdf.residualで動作するように見えますが、誰かが明らかにfinalModelオブジェクトをいじったというエラーメッセージを返します。

2
マルチレベルモデルで、ランダム効果相関パラメーターを推定する場合と推定しない場合の実際的な意味は何ですか?
マルチレベルモデルで、ランダム効果相関パラメーターを推定する場合と推定しない場合の実際的および解釈関連の意味は何ですか?これを尋ねる実際的な理由は、Rのlmerフレームワークでは、パラメーター間の相関のモデルで推定が行われる場合、MCMC手法を介してp値を推定する実装された方法がないことです。 たとえば、この例を見ると(以下に引用する部分)、M2対M3の実際的な意味は何ですか。明らかに、あるケースではP5が推定されず、別のケースではP5が推定されます。 ご質問 実用的な理由(MCMC手法でp値を取得したいという願望)のため、P5が実質的にゼロでなくても、変量効果間の相関なしにモデルを近似したい場合があります。これを行い、MCMC手法を介してp値を推定する場合、結果は解釈可能ですか?(私は@Ben Bolkerが以前と言及している知っている「私はそうする衝動を理解するものの、MCMCで有意性検定を組み合わせること(信頼区間を得ることがよりサポート可能である)、統計的に、少し支離滅裂である」それはあなたがよく眠れるようになりますもしそうなら、夜のふりで信頼区間を言った。) P5を推定できない場合、それは0であると断定することと同じですか? P5が実際にゼロ以外の場合、P1-P4の推定値はどのように影響を受けますか? P5が実際にゼロ以外の場合、P1-P4の誤差の推定値はどのように影響を受けますか? P5が実際にゼロ以外の場合、モデルの解釈にP5が含まれていないのはどのような点ですか? @Mike Lawrenceの答えから借ります(これを自由に完全なモデル表記に置き換えるよりも知識が豊富な人は、合理的な忠実度でこれを行うことができるとは完全に確信していません): M2:( V1 ~ (1|V2) + V3 + (0+V3|V2)推定値P1-P4) M3:( V1 ~ (1+V3|V2) + V3推定P1-P5) 推定される可能性のあるパラメーター: P1:グローバルインターセプト P2:V2のランダム効果インターセプト(つまり、V2の各レベルに対して、そのレベルのインターセプトのグローバルインターセプトからの偏差) P3:V3の効果(勾配)の単一のグローバル推定 P4:V2の各レベル内のV3の効果(より具体的には、特定のレベル内のV3効果がV3のグローバル効果から逸脱する程度) V2の。 P5:V2のレベル全体のインターセプト偏差とV3偏差の相関 lmerを使用したRの付随コードに加えて、十分に大規模で幅広いシミュレーションから得られた回答は受け入れられます。

5
生物学、心理学、医学でlmerを使用した混合モデル分析のレポート例は?
一般的なコンセンサスはlmer()、古典的なANOVAの代わりにRを介して混合モデルを使用することであると思われるため(不均衡な設計、交差ランダム効果など、よく引用される理由により)、データで試してみたいと思います。ただし、スーパーバイザー(最終的にp値を使用した従来の分析を期待している)または後でレビューアーにこのアプローチを「販売」できるかどうか心配です。 混合モデルを使用したりlmer()、フィールド生物学、心理学、医学の反復測定や複数の被験者内および被験者間設計などの異なる設計に使用した、公開された記事の良い例をお勧めしますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.