CV / Bootstrapを使用して機械学習アルゴリズムをトレーニングすることでオーバーフィットできますか？

34

この質問は、決定的な答えを得るにはあまりにもオープンエンドかもしれませんが、そうでないことを願っています。

SVM、GBM、ランダムフォレストなどの機械学習アルゴリズムには、一般に、いくつかの経験則を超えて、各データセットに合わせて調整する必要があるいくつかの無料のパラメーターがあります。これは、一般的に、ある種の再サンプリング手法（ブートストラップ、CVなど）で行われ、最良の一般化エラーを与えるパラメーターのセットに適合します。

私の質問は、あなたがここにすぎ行くことができるのですか？人々はグリッド検索を行うことなどについて話しますが、なぜこれを最適化問題として扱い、可能な限り最良のパラメータセットにドリルダウンしないのですか？私はこのいくつかの仕組みについて尋ね、この質問が、それは多くの注目を集めていません。質問はひどく聞かれたかもしれませんが、おそらく質問自体は人々が一般にしない悪いアプローチを表しているのでしょうか？

どのような私を気にすることは正則の欠如です。再サンプリングすると、このデータセットのGBMで成長するのに最適なツリーの数は647で、相互作用の深さは4ですが、これが新しいデータに当てはまることをどのように確認できますか（新しい母集団を仮定して））トレーニングセットと同一ですか？「縮小」する合理的な価値がない場合（または、情報を提供する事前情報がない場合）、リサンプリングは私たちができる最善の方法のようです。私はこのことについて何も話を聞いていないので、何か足りないものがあるのではないかと思います。

明らかに、多くの反復を行ってモデルの予測力の最後のビットを絞り出すことに関連する大きな計算コストがあるため、これは明らかに、最適化とすべてのビットを行うための時間/うなりを持っている場合にあなたがすることですパフォーマンスの改善は貴重です。

— ボグダノビスト
ソース

CVはさまざまな用途に使用できます。明確にするために、「グリッド検索」または「ハイパーパラメーターチューニング」と言うときは、特徴選択ではなくモデル選択について、または単に分類エラーを推定することについてです。

— smci

30

この質問に対する決定的な答えは、「はい、クロス検証ベースのモデル選択基準をオーバーフィットし、一般化が不十分なモデルになることは確かに可能です！」です。私の見解では、これは広く評価されていないように見えますが、機械学習法の適用における重大な落とし穴であり、現在の研究の主な焦点です。私はこれまでにこの件について2つの論文を書いています

GC CawleyおよびNLC Talbot、モデル選択の過剰適合とパフォーマンス評価におけるその後の選択バイアス、Journal of Machine Learning Research、2010年。Research、vol。11、ページ2079-2107、2010年7月。（ www）

これは、モデル選択の過剰適合が機械学習の実質的な問題であることを示しています（パフォーマンス評価中にモデル選択のコーナーをカットすると、大幅に偏ったパフォーマンス推定値を取得できます）

GC CawleyおよびNLC Talbot、ハイパーパラメータのベイズ正則化によるモデル選択の過剰適合の防止、Journal of Machine Learning Research、第8巻、841〜861ページ、2007年4月。（www）

ここで、交差検証ベースのモデル選択基準は、モデル選択の過剰適合を改善するために正規化されます（多くのハイパーパラメーターを持つカーネルを使用する場合、これは重要な問題です）。

現在、グリッド検索ベースのモデル選択に関する論文を書いています。これは、非常に細かいグリッドを使用することは確かに可能であることを示しています。より粗いグリッド（StackExchangeに関する質問で、グリッド検索を検討するきっかけになりました）。

お役に立てれば。

PS偏りのないパフォーマンス評価と信頼性の高いモデル選択は確かに計算コストが高くなりますが、私の経験では価値があります。入れ子になった交差検証。パフォーマンスの推定に外側の交差検証を使用し、モデル選択に内側の交差検証を使用するのが基本的なアプローチです。

— ディクラン・マースピアル
ソース

パーフェクト！これらの論文のように見えますが、私が後だったまさにです。そのためのおかげで。

— ボグダノビスト

論文について質問がある場合はお知らせください（電子メール経由-私は筆頭著者であり、電子メールアドレスは論文に記載されています）。

— ディクラン有袋類

@DikranMarsupialどのようにあなたは、モデル選択によるオーバーフィッティングを区別し、電車とテストセットの間のミスマッチをサンプリングによるものですか？

— image_doctor

1

原則として、グラウンドトゥルースが利用可能な合成データセットを使用すると、サンプリングの不一致がないため、簡単です。トレーニングセットは基礎となる分布からのランダムなサンプルであり、有限サンプルではなく、分布自体からエラーを推定できます。ただし、実際のデータセットの場合、AFAICSで管理できる最善の方法は、リサンプリングを使用して、多くのランダムテスト/トレーニング分割でモデル選択基準をオーバーフィッティングした効果を判断することです。

— ディクラン有袋類

2

悲しいことに、それが拒否されましたが、私はそれを考慮に（非常に便利）のレビューコメントを取るように修正し、別のジャーナルにそれを再送信します。

— ディクランマースピアル14

7

クロス検証とブートストラップは、ほぼ公平で、場合によってはクロス検証よりもブートストラップにより正確なエラー率の推定値を提供することが示されています。再代入などの他の方法の問題は、分類器に適合する同じデータセットでエラーを推定することにより、エラー率を大幅に過小評価できるため、あまりにも多くのパラメーターを含むアルゴリズムにつながり、将来の値を正確に予測できない可能性があることですパラメータの小さなセットに適合するアルゴリズム。統計的手法を使用するための鍵は、分類器をトレーニングするために必要なデータが、クラスが欠落し、分類器によって予測される必要がある将来見られるデータの典型であるということです。将来のデータが大きく異なる可能性があると思われる場合、統計的方法は役に立たず、私はしません

— マイケル・R・チャーニック
ソース

答えてくれてありがとう。質問を編集して、電車とテストセットの間の人口の変化について質問していないことを明確にしました。これはまったく別の質問であり、この質問には興味がありません。

— Bogdanovist

1

+1この場合、不偏は本質的に無関係です。相互検証の推定値の分散は、はるかに大きな問題になる可能性があります。モデル選択基準の場合、（ハイパーパラメーターの関数として）一般化誤差の最小値に確実に近い基準の最小値が必要です。平均して適切な場所にある場合は役に立ちませんが、データのさまざまな有限サンプルからの最小値の広がりはあちこちにあります。

— ディクラン有袋類

1

もちろん、精度はバイアスと分散の組み合わせであり、分散が大きい偏りのない推定は、分散が小さいわずかに偏った推定量ほど良くありません。エラー率の単純な推定は再代入であり、大きなバイアスがあります。ブートストラップ632および632+は、分散の大幅な増加なしにバイアスを調整するのに適しているため、非常にうまく機能します。これが、線形判別関数と2次判別関数の場合、それらが交差検証のleave-one-outバージョンよりもはるかに良好に機能する理由です。

— マイケルR.チャーニック

分類ツリーアンサンブルでは、ブートストラップのパフォーマンスが向上することは実証されていません。

— マイケルR.チャーニック

1

おそらく、困難の1つは、過剰適合が機械学習と統計のさまざまなことを意味することが多いことです。統計学者は時々、オーバーフィットを使用して、必要以上に多くのパラメーターを持つモデルが使用されていることを意味するように思われます。私は通常、そのような状況では「過剰パラメーター化」を使用し、「過剰適合」を使用して、一般化のパフォーマンスを犠牲にしてモデルが観測値にあまりにも近似しすぎていることを意味します。おそらく、これは私たちが多目的で話している場所でしょうか？

— ディクラン有袋類

4

ここでの答えの一つは、最適化の文脈では、あなたが見つけようとしているのは、 noisyコスト関数のことです。したがって、多次元グローバル最適化のすべての課題に加えて、コスト関数に追加された確率的コンポーネントがあります。

局所的最小値と高価な探索空間の課題に対処するアプローチの多くは、シミュレーテッドアニーリングやモンテカルロ法など、チューニングが必要なパラメータを持っています。

計算上の制約のない理想的な宇宙では、誤差関数の推定値のバイアスと分散に適切に厳しい制限を設定して、パラメーター空間のグローバルな最小値を見つけようとすることができると思います。このシナリオでは、広告を無限に再サンプリングできるため、正規化は問題になりませんか？

現実の世界では、ローカルミニマムで簡単に自分を見つけることができると思います。

言及したように、これは別の問題ですが、使用可能なデータに関連するサンプリングの問題と、サンプル空間の実際の基礎となる分布との関係により、オーバーフィットの可能性があります。

— image_doctor
ソース

4

それはアルゴリズムに強く依存しますが、ほとんどの場合、それは単なる良心的な努力の無駄になりますが、確かに可能です。

この問題の核心は、これが厳密な最適化ではないことです-あなたは何も持っていません $f(\mathbf{x})$ 少なくとも1つの値の極値を持つドメインで定義されます $\mathbf{x}$ 、いう $\mathbf{x}_{\text{opt}}$ 、あなたがしなければならないのはそれを見つけることです。代わりに、あなたが持っています $f(\mathbf{x})+\epsilon$ ここで、 $\epsilon$ 、いくつかのクレイジーな分布を持っていることが多い確率的であると上だけでなく、依存 $\mathbf{x}$ 、また、あなたのトレーニングデータとCV /ブートストラップの詳細。この方法では、あなたが検索できる唯一の合理的なものは、いくつかの部分空間であります $f$ ドメイン、言います $X_\text{opt}\ni \textbf{x}_\text{opt}$ 、その上のすべての値 $f+\epsilon$ わずかに異なっている（必要に応じて統計学的に言えば、）。

さて、あなたは見つけることができない一方、 $\textbf{x}_\text{opt}$ 、中から任意の値を練習 $X_\text{opt}$ 行います - と、通常はそれがわずか検索格子点であります $X_\text{opt}$ いくつかのサブを最大化するために、計算負荷を最小限にするために、ランダムに選択 $f$ パフォーマンスの尺度は、あなたはそれに名前を付けます。

深刻な過剰適合は場合に発生することができます $f$ ランドスケープには鋭い極値がありますが、これは「起こるべきではない」、つまり、非常に不適切に選択されたアルゴリズム/データペアの特性であり、一般化力の予後が悪いことです。

したがって、（優れたジャーナルに存在する慣行に基づいて）パラメーター選択の完全な外部検証は厳密に行う必要はありません（機能選択の検証とは異なります）。ただし、最適化が大雑把で、分類子がパラメータ。

4

はい、クロスバリデーションまたはブートストラップ中に、パラメータをトレーニングおよびテストセットに「オーバーフィット」できます。ただし、これを防ぐ方法がいくつかあります。最初の簡単な方法は、データセットを3つのパーティションに分割します。1つはテスト用（〜20％）、1つは最適化パラメーターのテスト用（〜20％）、もう1つは分類器を設定パラメーターに適合させるためです。非常に大きなデータセットがある場合にのみ可能です。他の場合には、二重交差検証が推奨されます。

RomainFrançoisand Florent Langrognet、「モデルベース分類の二重交差検証」、2006

— spinus
ソース