交差検証前の正規化


16

繰り返しk倍交差検定を実行する前にデータを正規化する(平均がゼロで標準偏差が1になる)には、オーバーフィットなどのマイナスの影響がありますか?

注:これは、#cases> total #featuresの状況用です

ログ変換を使用して一部のデータを変換し、上記のようにすべてのデータを正規化します。次に、機能の選択を実行しています。次に、選択された特徴と正規化されたデータを繰り返し10倍交差検証に適用して、一般化された分類器のパフォーマンスを試してみて、すべてのデータを使用して正規化することは適切ではないことを懸念しています。各フォールドのトレーニングデータから取得した正規化データを使用して、各フォールドのテストデータを正規化する必要がありますか?

感謝の意を表明しました!この質問が明らかな場合はおApび申し上げます。

編集: これをテストすると(以下の提案に沿って)、CV内の正規化と比較した場合、CV以前の正規化はパフォーマンス面で大きな違いをもたらさないことがわかりました。

回答:


13

主な質問に答えるには、CV内でスケーリングすることが最適であり、より適切です。ただし、おそらく少なくとも重要なことは(少なくともRで)分類器がデータを再スケーリングする場合、それほど重要ではなく、実際にはまったく重要ではないかもしれません。

ただし、クロス検証の前に機能を選択すると、データセット全体での機能に基づいて選択するため、オーバーフィットになり、オーバーフィットになります。ログ変換は外部で実行しても問題ありません。変換は実際のデータ(データの種類に依存)に依存せず、100%ではなくデータの90%しか持っていない場合は実行しないことではないためです。データに応じて調整されていません。

あなたのコメントに答えるために、それが明らかに過剰適合になるかどうかは、あなたの機能選択の仕方に依存します。それらを偶然に選択した場合(なぜそうするのか)、または先験的な理論的考慮事項(他の文献)のために、それは重要ではありません。ただし、データセットに依存する場合は、そうなります。統計学習の要素には良い説明があります。ここから自由にかつ合法的に.pdfをダウンロードできます。http: //www-stat.stanford.edu/~tibs/ElemStatLearn/

あなたに関するポイントは、5回目の印刷の245ページのセクション7.10.2にあります。「クロスバリデーションを行うための間違った正しい方法」というタイトルです。


ありがとう-確かに、各フォールドで選択されたモデル(機能)を使用して取得されたパフォーマンスの推定結果のみが報告された場合、これはオーバーフィットになりませんか?結局のところ、特定の機能サブセットの一般化されたパフォーマンスのみを報告しています。
-BGreene

私はあなたのコメントをアドレスするために私の答えを広げました。リンクの説明は、今すぐ作成できるものよりも優れていると思います。
エリック

ありがとうございました。これは、標準のフィルターベースの機能選択を使用すべきではなく、代わりにラッパーベースの機能選択または同等の機能を使用することを示唆しています。これは、#Cases> #Featuresの場合にも当てはまりますか?(私は259のケースがあり、合計56の機能があります)。ここでエラーの可能性は少ないと思いますか?
BGreene

4

交差検定は、統計モデルではなく、統計的手順のパフォーマンスを推定する方法として最もよく見られます。したがって、公平なパフォーマンスの見積もりを得るには、正規化を含むクロス検証の各フォールドで、そのプロシージャのすべての要素を個別に繰り返す必要があります。したがって、各フォールドでノーマライズすると言います。

これが必要となるのは、統計手順がデータのスケーリングと平均値にまったく影響されない場合だけです。


これは良い答えだと思いますが、厳密ではありませんが、重要な意味を持っています。その意味は、各フォールドで正規化すると、正規化がパフォーマンスに偏らないことが保証されるということだと思います。Dikranは最後の行で他の方法があることを指摘したが、それが書かれた方法はバイアスを回避する他の方法がないように思われた。CV内で正規化を行う場合、外部で行うのではなく、バイアスを増加させることはありません。他の回答で指摘されているように、バイアスはとにかくあまり影響しないかもしれません。
トムアンダーソン

1

正規化に含まれるパラメーターが2つだけで、問題のない適切なサイズのサンプルがある場合、私は思う。私は、変換と変数選択プロセスについてもっと心配するでしょう。今日、10倍の交差検証が大流行しているようです。JASAでエフロン(1983)が最初に提案し、後に632+でエフロンとチブシラーニの論文でフォローアップされたように、誰もブートストラップ632または632+を分類器エラー率推定に使用しませんか?


0

個人的には.632メソッドが好きです。これは基本的に置換によるブースターです。それを行って重複を削除すると、1000の入力セットから632のエントリが取得されます。


632推定量は、あなたの言うこととは異なります。実際には、ブートストラップに重み0.632を与える2つのエラーレート推定器の線形結合です。e0推定値および0.368から見かけの誤り率(再代入推定とも呼ばれます)。
マイケルR.チェルニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.