現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。
誰もが大規模なデータセットに適したツールを推奨できますか?
ありがとうございます!
現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。
誰もが大規模なデータセットに適したツールを推奨できますか?
ありがとうございます!
回答:
2つ目の@suncoolsuのコメント:データセットの次元は、特定のソフトウェアに向かわせる唯一の基準ではありません。たとえば、教師なしクラスタリングまたはPCAの使用を計画している場合は、ゲノム研究でよく見られるように、大規模なデータセットに対応する専用のツールがいくつかあります。
現在、R(64ビット)は大きなデータを非常にうまく処理し、RAMアクセスの代わりにディスクストレージを使用するオプションがまだありますが、CRAN Task View High-Performance and Parallel Computing with Rを参照してください。標準GLMは、20,000個のobsを簡単に収容します。(以下に示すように、妥当な時間内にspeedglmも参照してください):
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
より具体的な説明をするために、Rを使用して大規模な遺伝データ(800人x 800k SNPs、主な統計モデルはいくつかの共変量を持つ層化GLM(2分)を処理および分析しました。これは、効率的なRおよびsnpMatrixパッケージで利用可能なCコード(比較すると、同じ種類のモデルは専用のC ++ソフトウェア(plink)を使用して約8分かかりました。また、臨床研究(12k患者x 50変数)に取り組みました。最後に、私が知る限り、lme4パッケージは、混合効果モデルを不均衡で大規模なデータセットに適合させることができる唯一のソフトウェアです(大規模な教育評価の場合のように)。
Stata / SEは、大きなデータセットを処理できる別のソフトウェアです。SASとSPSSはファイルベースのソフトウェアであるため、大量のデータを処理します。データマイニング用のソフトウェアの比較レビューは、「データマイニングツール:CRMに最適なツール」で参照できます。視覚化には、多くのオプションもあります。多分良いスタートは、大規模なデータセットのグラフィックスです:100万個の視覚化(P MurrellによるJSSでのレビュー)、およびこのサイトのすべての関連スレッド。
Apache Mahoutのほとんどのアルゴリズムは、高次元のデータであっても20Mレコードを超えています。予測モデルのみを構築する必要がある場合、Vowpal Wabbit(http://hunch.net/~vw/)などの特定のツールがあり、単一のマシンで数十億のレコードに簡単に拡張できます。
大規模なデータセットから予測モデルを構築しているため、GoogleのBigQuery(Dremelによる大規模なデータセット分析に関するGoogleの研究論文のテクノロジーのホストバージョン)の恩恵を受けることができます。たとえば、クエリ結果をCSVとしてエクスポートして、予測分類子に取り込むことができます。
BigQueryには、クエリを実行して結果をエクスポートできるWebUIがあります。BigQueryのベータ(v1)バージョンにはRクライアントが含まれていましたが、本番バージョン(v2)には最終的にRクライアントも含まれます。
SAS Enterprise Minerバージョン6.2では、2000万件の観測値を処理するのに問題はなく、さまざまなモデルを状況に合わせて調整できます。ただし、SASの問題は通常コストです。SAS EMでできることの概要は次のとおりです 。SAS EM 6.2:新機能
ScaVis(http://jwork.org/scavis)を見ることができますか?20Mは見ていませんが、確認してみてください。
RHIPEは優れたソリューションです。この問題が発生した場合は、おそらくこれを選択します。しかし、あなたはNCSSを検討しましたか?私の知る限り、最新バージョン10でこれらのモデルを作成できます。完全版 非常に高価ですが、いくつかのリモートデスクトップサービスでは、わずかな料金でアプリを実行できますが、私は知らない..