ランダムフォレストアルゴリズムを、数千の特徴を持つ2つの既知のグループに分割されたマイクロアレイデータセットの分類子として適用しています。最初の実行後、機能の重要性を確認し、5、10、および20の最も重要な機能を使用してツリーアルゴリズムを再度実行します。 すべての機能、トップ10および20について、エラー率のOOB推定値は1.19%であることがわかりましたが、トップ5の機能については0%です。 これは私には直観に反しているように思えるので、何かを見逃しているのか、間違ったメトリックを使用しているのかを説明できるかどうか疑問に思っていました。
ntree = 1000、nodesize = 1、mtry = sqrt(n)でRのrandomForestパッケージを使用しています