私はデータサイエンスの初心者であり、Rに200,000行と50列のデータセットでクラスターを見つけるのに問題があります。
データには数値変数と名義変数の両方があるため、ユークリッド距離測定を使用するK-meansなどの方法は適切な選択のようには見えません。そこで、距離行列を入力として受け入れるPAM、agnes、hclustを使用します。
デイジー方式は混合タイプのデータで機能しますが、距離行列は大きすぎます:200,000 x 200,000は2 ^ 31-1(R 3.0.0より前のベクトル長の制限)よりもはるかに大きいです。
昨日リリースされた新しいR 3.0.0は、長さが2 ^ 31-1を超える長いベクトルをサポートしています。しかし、200,000 x 200,000のダブルマトリックスには、16Gbを超える連続RAMが必要であり、これは私のマシンでは不可能です。
並列コンピューティングとbigmemoryパッケージについて読みましたが、それらが役立つかどうかはわかりません。デイジーを使用している場合、メモリに収まらない大きなマトリックスが生成されます。
サンプリングに関する投稿についても読みました 。「ビッグデータ」の時間にサンプリングは関連していますか?
だから私の場合、データセットでサンプリングを使用し、サンプルでクラスター化し、データセット全体の構造を推測するのは適切ですか?
提案をお願いします。ありがとうございました!
私のマシンについて:
Rバージョン3.0.0(2013-04-03)
プラットフォーム:x86_64-w64-mingw32 / x64(64ビット)
OS:Windows 7 64ビット
RAM:16.0GB