統計とビッグデータ parallel-computing

5

さまざまなファイルから大量のcsvデータを読み取るためのRスクリプトがあり、分類のためにsvmなどの機械学習タスクを実行します。 Rのサーバー上で複数のコアを使用するためのライブラリはありますか。それを実現するのに最適な方法は何ですか？

28 r parallel-computing multicore

4

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

リソース集中コンピューティングにマルチコア、SNOW、またはCUDAパッケージでRを使用するのは誰ですか？

このフォーラムの誰がマルチコア、snowパッケージ、またはCUDAで"> Rを使用しているので、ワークステーションCPUよりも多くの電力を必要とする高度な計算のために、これらのスクリプトを計算するのはどのハードウェアですか？データセンターへのアクセスはどこですか？これらの質問の背景は次のとおりです。現在、私は修士号を書いています。Rとハイパフォーマンスコンピューティングに関する論文であり、実際にRを使用しているユーザーについての強力な知識が必要です。2008年にはRのユーザー数は100万人でしたが、このトピックで見つけられるユーザー統計は多かれ少なかれです。答えます！心からハインリッヒ

16 r mathematical-statistics computing parallel-computing

2

乱数とマルチコアパッケージ

Rでプログラミングするとき、マルチコアパッケージを数回使用しました。しかし、私はそれが乱数をどのように処理するかについてのステートメントを見たことはありません。CでopenMPを使用するときは、適切な並列RNGを使用するように注意しますが、Rでは、理にかなったことが起こると想定しています。誰でも賢明なことが起こることを確認できますか？例ドキュメントから、私たちは持っています x <- foreach(icount(1000), .combine = "+") %do% rnorm(4) rnorm`s はどのように生成されますか？

15 r random-generation parallel-computing multicore

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

doSMPを使用したキャレットパッケージの並列化

更新：キャレットはforeach内部的に使用するようになったため、この質問はもはや関連性がありません。の動作する並列バックエンドを登録できる場合foreach、キャレットはそれを使用します。私はR のキャレットパッケージを持っていて、train関数を使用してモデルを交差検証することに興味があります。ただし、速度を上げたいので、キャレットは並列処理をサポートしているようです。Windowsマシンでこの機能にアクセスする最良の方法は何ですか？doSMPパッケージを持っていますが、foreach関数を関数に変換する方法がわからないlapplyので、関数に渡すことができtrainます。 trainドキュメントから、私がやりたいことの例を以下に示します。これはまさに私がやりたいことですが、doSMPパッケージではなくパッケージを使用していdoMPIます。 ## A function to emulate lapply in parallel mpiCalcs <- function(X, FUN, ...) } theDots <- list(...) parLapply(theDots$cl, X, FUN) { library(snow) cl <- makeCluster(5, "MPI") ## 50 bootstrap models distributed across 5 workers mpiControl <- trainControl(workers = 5, number = 50, computeFunction = mpiCalcs, computeArgs …

10 r parallel-computing

2

RNG、R、mclapplyおよびコンピューターのクラスター

Rとコンピューターのクラスターでシミュレーションを実行していますが、次の問題があります。私が実行する各Xコンピューターで： fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) 32台のコンピューターがあり、それぞれに16コアがあります。ただし、乱数の約2％は同一です。これを回避するためにどのような戦略を採用しますか？レイテンシを設定することで、fxT2のこの問題を回避できました（つまり、各ジョブが各Xコンピューターに送信される時間を1秒遅らせます）。しかし、それはfxt2にとって非常に特別です。問題は、実際にはfxT2が疑似乱数を含む長いタスクであることです。プロセスの終わりに、私は同じ統計実験のX * nessay再現を得ることが期待されます。nessay再現ではありません。これが確かに事実であり、これを確認する方法はありますか？

10 r random-generation parallel-computing multicore

1

複数の並列MCMCチェーンを1つの長いチェーンに組み合わせる

各チェーンがバーンインした MCMCチェーンを実行したとしましょう。結果のチェーンが表されるとしここで、は後の各チェーンの長さです。バーンイン。メートルメートルmバツ（私）1、… 、x（私）N for i = 1 、… 、m 、バツ1（私）、…、バツN（私）ために私=1、…、メートル、 x_1^{(i)},\dots,x_N^{(i)} \quad \text{ for } i=1,\dots,m,NNN これらのチェーンを1つの長いチェーンに結合したい場合、ように連結するのと同じくらい簡単ですバツ（1 ）1、… 、x（1 ）N、… 、x（m）1、… 、x（m）N？バツ1（1）、…、バツN（1）、…、バツ1（メートル）、…、バツN（メートル）？x_1^{(1)},\dots,x_N^{(1)},\dots, x_1^{(m)},\dots, x_N^{(m)} ? 私の場合、各はparametervectorです。私の目標は、後方からサンプリングすることです。ここで、はデータです。並列チェーンに興味があるのは、潜在的なスケール削減係数（PSRF）を計算するために必要だからです。バツ私バツ私x_iθ私θ私\theta_iP （θ | yの）、p（θ|y）、 p(\theta \mid y),yyy

9 mcmc parallel-computing

タグ付けされた質問 「parallel-computing」

タグ付けされた質問「parallel-computing」