Rでの大規模なデータセットの処理—チュートリアル、ベストプラクティスなど


11

私はRの大規模なデータセットに対してさまざまな種類の分析を行う必要があるRの初心者です。そのため、このサイトや他の場所を見回していると、ここには難解であまり知られていない問題がたくさんあるようです。どのパッケージをいつ使用するか、どの変換をデータに適用する(適用しない)かなど。

これらすべてをわかりやすく説明し、体系的な方法で情報を提示する本/チュートリアル/ガイドがあるかどうか、私はただ疑問に思っていますか?私は周りを見回して、さまざまなソースからの情報をオンラインで照合するよりも、これを行うことを好みます。

前もって感謝します。



1
どのような分析をしたいのか、データがどのように見えるのかの例を共有すると役立つ場合があります。平均や複雑な回帰のような単純な統計?1000行を横切る200変数、または4変数と2000万行?
PaulHurleyuk

1
本当に「大きな」データセットがある場合は、おそらくリレーショナルデータベースを確認する必要があります。この開始点は、RNBに付属する「Rデータのインポート/エクスポート」マニュアルにすることができます。このマニュアルは、R Webサイトの「マニュアル」セクションからも入手できます。

1
まず、重要な質問:何をするあなたは大きな意味で、あなたは何をすべきかをしたいですか?
フォミテ2011

回答:


3

これが、Rを使用した大規模データセットのこのテーマで私が行ったいくつかのブログ投稿です。ffやbigmemoryなど、ファイルスワッピングとメモリ割り当てを利用するパッケージがいくつかあります。他のいくつかのパッケージは、sqldf、RMySQL、RSQLiteなどのデータベースへの接続を利用します。

ビッグデータを処理するためのRリファレンス

ODBCを使用したRでのビッグデータロジスティック回帰

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.