私の質問は、観測値よりも多くの変数がある場合の相互検証についてです。アイデアを修正するために、非常に高い次元(観察よりも多くの機能)の分類フレームワークに制限することを提案します。
問題:各変数について、分類問題の特徴の関心度を正確に測定するよりも重要度測定値があると仮定します。特徴のサブセットを選択して分類エラーを最適に減らすという問題は、特徴の数を見つけるという問題に減少します。
質問:この場合に相互検証を実行する最も効率的な方法は何ですか(相互検証スキーム)?私の質問は、コードの記述方法ではなく、選択された機能の数を見つけようとするときに使用する交差検証のバージョン(分類エラーを最小限に抑えるため)ではなく、交差検証を実行するときに高次元を処理する方法(したがって、上記の問題は、CVを高次元で議論するための「おもちゃの問題」のようなものです。
表記: は学習セットのサイズ、pは特徴の数(つまり、特徴空間の次元)です。非常に高い次元とは、p >> nを意味します(たとえば、および)。