リソース集中コンピューティングにマルチコア、SNOW、またはCUDAパッケージでRを使用するのは誰ですか?


16

このフォーラムの誰がマルチコアsnowパッケージ、またはCUDAで"> Rを使用しているので、ワークステーションCPUよりも多くの電力を必要とする高度な計算のために、これらのスクリプトを計算するのはどのハードウェアですか?データセンターへのアクセスはどこですか?

これらの質問の背景は次のとおりです。現在、私は修士号を書いています。Rとハイパフォーマンスコンピューティングに関する論文であり、実際にRを使用しているユーザーについての強力な知識が必要です。2008年にはRのユーザー数は100万人でしたが、このトピックで見つけられるユーザー統計は多かれ少なかれです。答えます!

心からハインリッヒ


考えられる関連質問、stats.stackexchange.com / questions / 825 /…
-chl

回答:


6

私は、数年にわたる気候変動がいくつかの渡り鳥の個体群動態に与える影響をモデル化する生物学者です。私のデータセットは非常に大きい(かなり集中的なデータ)のでmulticore、Amazon EC2サーバーでRコードを実行します。私のタスクが特にリソースを集中的に使用する場合、26個のCPUユニット、8個のコア、および68GのRAMを搭載したハイメモリクアッドプルエクストララージインスタンスを選択します。この場合、私は通常4〜6個のスクリプトを同時に実行します。各スクリプトはかなり大きなデータセットを処理します。小規模なタスクには、4〜6個のコアと約20ギガバイトのRAMを備えたサーバーを選択します。

これらのインスタンスを起動し(通常は安価ですが、現在の料金が支払いを選択した金額を超えるといつでも終了できます)、スクリプトを数時間実行し、スクリプトが終了したらインスタンスを終了します。マシンイメージ(Amazon Machine Image)については、他の誰かにUbuntuをインストールし、Rを更新し、パッケージをインストールし、それをS3ストレージスペースにプライベートAMIとして保存しました。

私のパーソナルマシンはデュアルコアのMacbook Proであり、マルチコアコールの分岐に苦労しています。他に質問がある場合は、気軽にメールしてください。


データセットのサイズを教えてください。
suncoolsu

承知しました。現在作業しているデータセットは
〜14

4

あなたが尋ねるので、マルチコアバックエンドでforeachパッケージを使用しています。これを使用して、大量のRAMを備えた単一のNehalemボックス上の複数のコアに、恥ずかしいほど並列のワークロードを分割します。これは、当面のタスクにはかなり有効です。


ご回答有難うございます!あなたの仕事/学術研究のために、または自分のPC上で自分のプロジェクトのために計算をしますか?
ハインリッヒ

これは商業環境で行われます。このタスクでは、32GBのRAMとRAIDディスクを備えた単一のIntelボックスを使用しています(主な困難は大量のデータであり、処理自体はそれほど計算負荷がかかりません。)
NPE

さて、@ aix、これらの計算をどのくらいの頻度で実行しますか。あなたは一日中実行されているボックス以上のアイドルですか?
ハインリヒ

@NPEへの簡単な質問:どのシステムにデータを保存しますか?データベースバックエンドを使用していますか?
nassimhddd

3

私はアカデミーで働いており、機械学習アルゴリズムの重いベンチマークのために、主にOpteronベースのSun Constellationといくつかの小さなクラスターでマルチコアを使用しています。これらはかなり厄介な並列問題でもあるため、マルチコアの主な役割は、メモリ使用量を増やすことなく計算をノードに分散させることです。


ここハンブルグでは、学術データセンターの待ち時間が本当に長いという問題が常にあります。あなたにとっても同じですか?
ハインリッヒ

@Heinrich私はある種の学術データセンターで働いているので、そのような問題はありません(-;真剣に、ワルシャワでは科学的なCPU時間の供給は需要よりも大きいので、助成金を得るのはとても簡単だと思います。 D-GridまたはEGEEを試してみるべきだと思いますが、私の経験では、グリッドは一般的に非常に使用されていません。

ああ。それは興味深い。ダウは、これらの拡張にRがどのようなビジネスで使用されているか知っていますか?
ハインリヒ

2

HPCクラスターでのコースの並列化には雪と降雪を使用し、細かいデータの並列処理にはCUDAを使用します。私は疫学で病気の伝播モデリングを行っています。だから私は両方を使用します。


あなたの情報をありがとう。コースの並列化とはどういう意味ですか?
ハインリッヒ

コースの並列化は、MCMCの変更の独立した実行のようなものです。つまり、スレッドを同期せずに並行して実行できる非常に大きなチャックです。細粒度の例は、データポイントに対して個別に計算を実行できる可能性を計算することです。
アンドリューレッド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.