SVM、ランダムフォレスト、その他の分類器などの分類器をトレーニングしたい。データセットの特徴の1つは、1000レベルのカテゴリ変数です。この変数のレベル数を減らす最善の方法は何ですか。Rで呼び出された関数があるcombine.levels()
にHmiscのまれなレベルを組み合わせたパッケージが、私は他の提案を探していました。
カテゴリー変数は順不同ですか?おおよそ何件ありますか?カテゴリー変数全体の度数分布は何ですか?
—
Jeromy Anglim、
レベルは順序付けされていません。約10,000の観測があります。頻度分布は次のとおりです。観測値の約11%にレベルAが表示されます。レベルBは8%で表示されます。レベルcは5%で表示されます。これらのレベルの約15は、データセット内の観測値の50%をカバーしています。
—
sabunime、