特徴選択の相互検証を使用した徹底的な検索を実行できますか?


8

機能の選択と相互検証に関するいくつかの投稿を読んでいますが、正しい手順についてまだ質問があります。

10個の特徴を持つデータセットがあり、最良の特徴を選択したいとします。また、最近傍分類器を使用しているとします。交差検証を使用して徹底的な検索を実行し、最良の機能を選択するためのガイドとしてエラー率を推定できますか?次の疑似コードのようなもの

for i=1:( 2^10 -1)
   error(i)= crossval(1-nn, selected_fetures(i))
end   

i=find(erro(i)==min(error(i));
selected_fetures= selected_features(i);

この疑似コードで説明しようとしているのは、機能のすべての可能な組み合わせに対して相互検証を実行し、エラーが最小になる組み合わせを選択することです。

全数探索を行っているので、この手順は正しいと思います。機能の選択は、データセット全体ではなく、各パーティションの平均誤差に基づいていました。そのような特徴選択でモデルを過剰適合させていますか?

回答:


10

はい、この場合、過剰適合になる可能性があります。前の質問に対する私の回答を参照しください。覚えておくべき重要なことは、交差検証はデータの有限サンプルに基づく一般化パフォーマンスの推定であることです。有限サンプルのデータに基づいているため、推定量にはゼロ以外の分散があるため、交差検証エラーをある程度減らすと、一般化エラーを本当に改善するモデル選択と、評価されるデータの特定のサンプルのランダムな特性。後者のタイプのモデルを選択すると、汎化のパフォーマンスが向上するのではなく悪化する可能性があります。

データの有限サンプルに基づいて統計を最小化するときはいつでも、過剰適合は潜在的な問題です。相互検証は違いありません。


1
多分、しかし適合モデルで使用されていないデータのセットで分類器を評価するので、交差検証は再代入より大きなステップです。
Michael R. Chernick

2
はい、それは再代入推定量よりも過剰適合する傾向が少ないですが、私の経験では、それでも一般に十分な問題であり、徹底的な検索は悪い考えである可能性があります。「回帰におけるサブセット選択」に関する彼のモノグラフのミラーは、予測パフォーマンスが重要な基準であり、特徴の特定が主な目的ではない場合(言い換えると)、特徴選択ではなく正則化を使用することを勧めています。
Dikran Marsupial 2012

1
@Michael間違っているのはCVではなく、used-featuresスペース(または関連トラップであるパラメータースペース)のエラーを厳密に最小化するという考えです。トレインセット全体がランダムな現実のサブセットであるため、この最適化は単に確率的であり、それに応じて処理する必要があります。そうしないと、有意でない変動が発生します。これは、分析全体をブートストラップするとはっきりとわかります。この方法でIMOを使用する場合、精度を高めるための唯一のオプションは、堅牢なモデリング手法(正規化またはランダム化)と、説明のために、ノイズより優れた属性のテストです。

1
私は履歴書を非難していませんでした。問題はしらみつぶしの検索、私は思う。..です
マイケルR. Chernick

はい、CVは機能選択の再置換よりもはるかに優れていることを指摘する価値がありました。これはまだ使用されることがあるからですが、問題は過剰最適化です。
Dikran Marsupial 2012

0

これは、他の特徴選択手順よりも過剰適合しにくい特徴選択の有効な手順だと思います。この手順の問題は、計算が非常に複雑で、実際のデータセットにはほとんど使用できないことです。


2
これは正しいとは思いません。LASSOアプローチなどの正則化によってスパース性が達成される場合、生成できる機能サブセットのセットは、徹底的な検索によって調査される数よりもはるかに少ない可能性があります。これは、「モデル空間」がより厳しく制約されるため、過剰適合の機会が少なくなることを意味します。データセットが非常に大きく、フィーチャの数が非常に少ない場合を除いて、徹底的な検索はお勧めしません(もちろん、フィーチャの数が増えると、計算上すぐに実行不可能になります)。
Dikran Marsupial 2012

私は、ディクランが徹底的な検索に関して提起する問題について同意します。
Michael R. Chernick

0

相互検証の各フォールド内で機能の選択を行う場合は問題ないと思います。上記のポスターにあるように、上記の手順で取得した選択した機能を使用して、どのモデルにもオーバーフィットします。これは、すべてのデータが特徴選択ルーチンに何らかの影響を与えたためです。


1
残念ながら、これも正しくありません。データの有限サンプルの統計を最小化すると、過剰適合の問題が発生する可能性があります。統計にゼロ以外の分散がある場合、統計を完全に最小化すると、ある程度の過剰適合が避けられません。各分割で個別に機能選択を実行する場合、結果として得られる交差検証の推定は(ほぼ)不偏ですが、モデルが適合しすぎないということではなく、パフォーマンス推定が過剰の影響を説明するだけです。 -フィッティング。
Dikran Marsupial 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.