名義データまたは順序データのカテゴリ数を減らす方法を見つけるのに苦労しています。
たとえば、いくつかの名義因子と順序因子を持つデータセットで回帰モデルを構築するとします。このステップには問題はありませんが、名目上の特徴がトレーニングセットに観測されていないが、その後検証データセットに存在するという状況に遭遇することがよくあります。これは、モデルに(これまでに)目に見えないケースが存在する場合、当然、エラーにつながります。カテゴリを組み合わせたいもう1つの状況は、単純に観測値の少ないカテゴリが多すぎる場合です。
だから私の質問は:
- 以前の実世界の背景情報に基づいて多くの名義(および順序)カテゴリを組み合わせることが最善かもしれないと思いますが、体系的な方法(
R
できればパッケージ)が利用可能ですか? - どのようなガイドラインと提案、カットオフしきい値などを作成しますか?
- 文献で最も人気のあるソリューションは何ですか?
- 小さな名義カテゴリを新しい「OTHERS」カテゴリに結合する以外の戦略はありますか?
他にも提案がある場合は、お気軽にご連絡ください。