非常にまばらなデータでうまく機能するRランダムフォレストの実装はありますか?数千または数百万のブール入力変数がありますが、与えられた例では数百またはそれだけがTRUEになります。
私はRが比較的新しく、スパースデータを処理するための「Matrix」パッケージがあることに気付きましたが、標準の「randomForest」パッケージはこのデータ型を認識しないようです。重要な場合、入力データはRの外部で生成され、インポートされます。
何かアドバイス?また、Weka、Mahout、または他のパッケージの使用について調べることもできます。