私は講義を見なかったので、言われたことにコメントすることはできません。
私の0.02ドル:リサンプリングを使用してパフォーマンスの適切な推定値を取得する場合は、事前にではなく、リサンプリング中にすべての操作を実際に実行する必要があります。これは、機能選択[1]およびPCAなどの重要な操作にも当てはまります。結果に不確実性が加わる場合は、リサンプリングに含めてください。
主成分回帰について考えてみてください:PCAに続いて、いくつかの成分の線形回帰。PCAはパラメーター(ノイズあり)を推定し、コンポーネントの数も選択する必要があります(異なる値は異なる結果になります=>より多くのノイズ)。
スキーム1で10倍のCVを使用したとします:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
またはスキーム2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
2番目のアプローチでは、PCA、コンポーネント数の選択、および線形回帰に起因する不確実性を反映したエラー推定値を生成する必要があることは明らかです。実際には、最初のスキームのCVには、その前に何があるのか分かりません。
私は常にすべての操作をリサンプリングなしで行うわけではありませんが、パフォーマンスの見積もりをあまり気にしないときだけです(これは珍しいことです)。
2つのスキームに大きな違いはありますか?データと前処理に依存します。センタリングとスケーリングのみを行う場合は、おそらくそうではありません。大量のデータがある場合は、おそらくそうではありません。トレーニングセットのサイズが小さくなると、特にnがpに近い場合、不適切な推定値を取得するリスクが高くなります。
私は経験から確実に、リサンプリングに監視対象機能の選択を含めないことは本当に悪い考えだと言うことができます(大きなトレーニングセットがない場合)。なぜ前処理がこれに影響されないのかわかりません(ある程度)。
@mchangun:コンポーネントの数は調整パラメーターであり、おそらく一般化可能なパフォーマンス推定値を使用して選択する必要があると思います。分散の少なくともX%が説明されるようにKを自動的に選択し、そのプロセスをリサンプリングに含めて、そのプロセスのノイズを考慮することができます。
マックス
[1] Ambroise、C.&McLachlan、G.(2002)。マイクロアレイ遺伝子発現データに基づく遺伝子抽出の選択バイアス。国立科学アカデミー論文集、99(10)、5622-6566。