特徴選択は、トレーニングデータ(またはすべてのデータ)に対してのみ実行する必要がありますか?私はGuyon(2003)やSinghi and Liu(2006)などのいくつかのディスカッションと論文を読みましたが、正しい答えについてはまだわかりません。
私の実験のセットアップは次のとおりです:
- データセット:50人の健康なコントロールと50人の病気の患者(病気の予測に関連する可能性のある200の機能)。
- タスクは、利用可能な機能に基づいて疾患を診断することです。
私がすることは
- データセット全体を取り、特徴選択(FS)を実行します。今後の処理のために選択した機能のみを保持します
- テストとトレーニングに分割し、トレーニングデータと選択した機能を使用して分類子をトレーニングします。次に、分類子をテストデータに適用します(ここでも、選択した機能のみを使用します)。Leave-one-out検証が使用されます。
- 分類精度を取得する
- 平均化:1)〜3)をN回繰り返します。(100)。
データセット全体でFSを実行するとある程度のバイアスが生じる可能性があることに同意しますが、私の意見では、平均化(ステップ4)中に「平均化」されるということです。あれは正しいですか?(精度の差異は)
1 Guyon、I.(2003) "An Introduction to Variable and Feature Selection"、The Journal of Machine Learning Research、Vol。1 3、pp。1157-1182
2 Singhi、SKおよびLiu、H.(2006)「分類学習のための特徴サブセット選択バイアス」、Proceeding ICML '06 Proceedings on the 23rd International Conference on Machine Learning、pp。849-856