2
交差検証の前に、教師なしの機能選択を実行することは実際に問題ありませんか?
で統計的学習の要素、私は、次のステートメントを見つけました: 資格が1つあります。サンプルが除外される前に、教師なしの最初のスクリーニング手順を実行できます。たとえば、交差検証を開始する前に、50のサンプルすべてで最も分散が高い1000の予測子を選択できます。このフィルタリングはクラスラベルを含まないため、予測子に不当な利点を与えません。 これは実際に有効ですか?つまり、事前に属性をフィルタリングすることで、トレーニングデータや新しいデータ環境を模倣していません。つまり、実行しているフィルタリングが監視されていないということですか。相互検証プロセス内で実際にすべての前処理ステップを実行する方が良いのではないですか?そうでない場合は、機能の正規化/ PCAなど、すべての教師なし前処理を事前に実行できることを意味します。ただし、トレーニングセット全体でこれを行うことにより、実際に一部のデータをトレーニングセットにリークしています。比較的安定したデータセットを使用すると、これらの違いは非常に小さい可能性が高いことに同意できます。これについて考える正しい方法は何ですか?