繰り返しk倍交差検定を実行する前にデータを正規化する(平均がゼロで標準偏差が1になる)には、オーバーフィットなどのマイナスの影響がありますか?
注:これは、#cases> total #featuresの状況用です
ログ変換を使用して一部のデータを変換し、上記のようにすべてのデータを正規化します。次に、機能の選択を実行しています。次に、選択された特徴と正規化されたデータを繰り返し10倍交差検証に適用して、一般化された分類器のパフォーマンスを試してみて、すべてのデータを使用して正規化することは適切ではないことを懸念しています。各フォールドのトレーニングデータから取得した正規化データを使用して、各フォールドのテストデータを正規化する必要がありますか?
感謝の意を表明しました!この質問が明らかな場合はおApび申し上げます。
編集: これをテストすると(以下の提案に沿って)、CV内の正規化と比較した場合、CV以前の正規化はパフォーマンス面で大きな違いをもたらさないことがわかりました。