相互検証以外でのハイパーパラメーターの調整はどれほど悪いですか?


20

パフォーマンスを測定するために使用するデータセットは、機能を調整するために使用したものと同じであるため、相互検証の外でハイパーパラメーターチューニングを実行すると、外部の有効性のバイアスが高い推定値につながることがあります。

私が不思議に思っているのはこれがどれほど悪い問題かということです。これにより、調整するパラメーターが非常に多くなるため、機能の選択が本当に悪いことを理解できます。しかし、LASSO(正則化強度が1つだけのパラメーター)のようなもの、または機能選択なしのランダムフォレスト(いくつかのパラメーターはあるが、ノイズ機能の追加/ドロップほど劇的ではない)を使用している場合はどうでしょうか?

これらのシナリオでは、トレーニングエラーの推定値がどれほどひどく楽観的であると予想できますか?

ケーススタディ、論文、逸話など、これに関する情報をいただければ幸いです。ありがとう!

編集:明確にするために、トレーニングデータのモデルパフォーマンスの推定について話していません(つまり、相互検証をまったく使用していません)。「クロス検証の外側のハイパーパラメーター調整」とは、個々のモデルのパフォーマンスを推定するためだけにクロス検証を使用することを意味しますが、ハイパーパラメーター調整手順内でオーバーフィットを修正するための外側の2番目のクロス検証ループ含みませんトレーニング手順中のオーバーフィッティング)。たとえば、こちらの回答をご覧ください

回答:


17

このバイアスの影響は非常に大きい場合があります。これの良いデモンストレーションは、いくつかの機械学習カンファレンスで開催されるオープンな機械学習競技会によって与えられます。これらには通常、トレーニングセット、検証セット、テストセットがあります。競合他社には、検証セットまたはテストセットのラベルが表示されません(明らかに)。検証セットは、競争の進行中に誰もが見ることができるリーダーボード上の競合他社のランキングを決定するために使用されます。競争の終わりにリーダーボードのトップにいる人たちは、テストデータに基づいた最終ランキングで非常に低いことが非常に一般的です。これは、学習システムのハイパーパラメーターを調整して、リーダーボードでのパフォーマンスを最大化したため、検証データが過剰に適合したためです。モデルを調整します。経験豊富なユーザーは、リーダーボードにほとんどまたはまったく注意を払わず、より厳密で公平なパフォーマンス推定を採用して、方法論を導きます。

私の論文(Jacquesによる)の例は、この種のバイアスの影響は学習アルゴリズムの違いと同じ種類のサイズになる可能性があることを示しています。何が機能して何が機能しないかを見つけることに本当に興味があります。基本的なルールは、「モデルの適合手順の不可欠な部分としてモデル選択(ハイパーパラメーターチューニングなど)を扱い、パフォーマンス評価に使用される相互検証の各フォールドに含めることです」。

正則化が機能選択よりも過剰適合しにくいという事実は、正確にLASSOなどが機能選択を実行する良い方法である理由です。ただし、バイアスのサイズは、機能の数、データセットのサイズ、および学習タスクの性質に依存します(つまり、特定のデータセットに依存し、アプリケーションごとに異なる要素があります)。これのデータ依存の性質は、不偏プロトコルを使用して差を比較することによりバイアスのサイズを推定する方が良いことを意味します(この特定の場合のモデル選択における過剰適合に対してメソッドがロバストであることを報告することは興味深いかもしれませんそれ自体で)。

GC Cawley and NLC Talbot(2010)、「モデル選択の過剰適合とパフォーマンス評価における後続の選択バイアス」、Journal of Machine Learning Research、11、p.2079、セクション5.2)


7
  • あなたが話しているバイアスは、まだ主に過適合に関係しています。
  • 正則化ハイパーパラメーターを修正するためのごく少数のモデルのみを評価し、もっともらしい選択内で複雑さを低くすることにより、リスクを低く抑えることができます。

  • @MarcClaesenが指摘しているように、学習曲線が機能しているので、バイアスをある程度軽減できます。しかし、通常、学習曲線はごくわずかな場合にのみ急勾配であり、オーバーフィットはより大きな問題です。

結局、私はバイアスが多くに依存することを期待するだろう

  • データ(単変量問題に過剰適合させるのは難しい...)および
  • あなたの経験とモデリングの振る舞い:モデルのタイプとアプリケーションの両方について十分な経験があり、非常によく振る舞い、それに屈しない場合は、おおよそ適切なモデルの複雑さを決定する可能性があると思いますより複雑なモデルの誘惑。しかし、もちろん、私たちはあなたを知らないので、あなたのモデリングがどれほど保守的であるかを判断することはできません。
    また、派手な統計モデルは非常に主観的であり、検証を行うケースが残っていないことを認めることは、通常は望んでいないことです。(全体的な結果がより良くなると予想される状況でさえも。)

LASSOは使用しません(物理的な理由から変数の選択はデータにとってあまり意味がないため)が、PCAまたはPLSは通常うまく機能します。リッジは、LASSOに近く、データの種類により適した代替手段です。これらのデータを使用して、「ショートカット検証」対適切な独立(外部)相互検証の分類ミスが1桁多いことがわかりました。しかし、これらの極端な状況では、私の経験では、ショートカット検証は疑わしいほど良さそうでした。たとえば、適切な相互検証で2%誤分類=> 20%です。

ただし、あなたの質問に直接当てはまる実数を提供することはできません。

  • これまで、私の分野で発生する他のタイプの「ショートカット」にもっと気を配りました。たとえば、患者の代わりにスペクトルを相互検証する(巨大なバイアス!10%の誤分類-> 70%=推測3クラス)、または相互検証にPCAを含めない(2-5%-> 20-30%)。
  • 余裕がある1つの相互検証をモデルの最適化または検証のどちらに費やすべきかを判断しなければならない状況では、検証のために常に判断し、経験によって複雑度パラメーターを修正します。PCAとPLSは、複雑さパラメーター(#コンポーネント)が問題の物理的/化学的性質に直接関連しているため、正則化手法としてうまく機能します(例えば、化学的に異なる物質グループの数が問題になると推測される場合があります)。また、物理化学的な理由から、成分はスペクトルのように見えるはずであり、ノイズが多い場合は過剰適合です。しかし、経験は、ハイパーパラメータの転送を正当化するのに十分に一般的に類似している以前の実験からの古いデータセットでモデルの複雑さを最適化することもありますます新しいデータの正則化パラメーター。
    そのように、私は最適なモデルを持っていると主張することはできませんが、私は得ることができるパフォーマンスの合理的な推定値を持っていると主張することができます。
    そして、私が持っている患者数では、統計的に意味のあるモデル比較を行うことはとにかく不可能です(私の総患者数は、単一の割合を推定するための推奨サンプルサイズを下回っていることを思い出してください(経験則によると、@ FrankHarrellがここに示します))。

データに可能な限り近いシミュレーションを実行して、何が起こるかを教えてください。


データについて:分光データを使用しています。通常、データセットは幅が広く:数十の独立したケース(患者。通常、ケースごとに多くの測定値があります。生データは約10³の変動があります。私のスペクトルから、スペクトル分解能を減らすために。


5

あなただけならLASSOのハイパー選択して、ネストされたCVは必要ありません。ハイパーパラメーターの選択は、シングル/フラットCVインタラクションで行われます。

既に LASSOを使用することを決定し、アルゴリズムに保持する機能を決定していることを考えると(LASSOは一部の機能を削除する可能性がありますが、LASSOの最適化は決定ではありません)、残っているのはを選択するλハイパーパラメーター、フラット/シングルCVを使用します。

LiTiλTiLi

λ

(これがハイパーパラメーターを選択する唯一の方法ではありませんが、最も一般的な方法です-GC Cawley and NLC Talbot(2010)、「モデル選択の過剰適合とその後の選択バイアス」で議論および批判された「中央」手順もありますin performance evaluation」、Journal of Machine Learning Research、11、p.2079、セクション5.2)

私があなたが尋ねているのは、上記のステップ1で計算した誤差(を選択できる最小誤差使用するのはどれほど悪いかλλ将来のデータのためにで?ここでは、ハイパーパラメータの選択ではなく推定について説明しています!!

この推定値のバイアスを測定した2つの実験結果を知っています(合成データセットの真の一般化エラーと比較して)

両方のオープンアクセス。

次の場合は、ネストされたCVが必要です。

a)LASSOと他のアルゴリズムのどちらかを選択したい場合、特にハイパーパラメーターもある場合

λ

λ

最後に、ネストされたCVは、予想される汎化誤差の妥当な不偏推定値を計算する唯一の方法ではありません。少なくとも3つの提案があります


2
「ハイパーパラメータの選択にCVがありません」とはどういう意味ですか?あなたが書いたものから、私はあなたがOPにネストをしていないことを警告したいのか、一般的にそのようなものは存在しないと述べているのかを理解できません。
cbeleitesは、モニカをサポートします

(+1)問題の簡潔な説明と参考文献。しかし、@ cbeleitesが指摘しているように、最初の文はかなり混乱しています。OPにはない誤解を修正することを意図しているようです。
Scortchi-モニカの復職

@cbeleites(およびScortchi)-OP "EDIT:"に答えています。ここで(信じている)彼はCVを使用してパラメーターを選択していると主張しています( "クロス検証は各モデルのパフォーマンスを推定するためだけ")彼は、ネストされたCVを使用しなかったのではないかと心配しています(「ハイパーパラメーター調整手順内でのオーバーフィットを修正するための外側の2番目の交差検証ループは含まれていません」)。私は、パラメータの選択に外部CVがないことを彼に伝えようとしていました。
ジャックウェイナー

@JacquesWainer:ネストされたCVを使用してハイパーパラメーターの選択値を何らかの方法で修正するのではなく、プロシージャのアウトオブサンプルパフォーマンス(状況b)を推定するときに「ハイパーパラメーターチューニングプロシージャ内でオーバーフィッティングを修正」したいと考えています。とにかく、あなたの編集は答えの始まりをより明確にします。
Scortchi-モニカの復職

はい、「[調整されたハイパーパラメーター]をオーバーフィットに修正する」などのことではなく、「ハイパーパラメーターチューニング手順内でオーバーフィットの[素朴なパフォーマンス推定値]を修正する」ことを意味しました。混乱してすみません。パラメータの選択ではなく、誤差の推定が心配だったことをもっと明確に述べたはずです。
ベン・クーン

2

SVM、ニューラルネットワーク、ランダムフォレストなどの複雑な学習アルゴリズムは、それらを(たとえば、弱い/正則化なしで)許可すると、100%のトレーニング精度を達成でき、結果として絶対に恐ろしい一般化パフォーマンスが得られます。

κ(xi,xj)=exp(γxixj2)γ=100%

要するに、独立したテストセットではまったく何も役に立たなかったトレーニングセットで、完璧な分類器を簡単に見つけることができます。それがどれほど悪いかです。


クロス検証以外のモデルのトレーニングについては話していない。私は、ハイパーパラメーターの調整について話します(そして、クロス検証を使用して、ハイパーパラメーターの各セットのパフォーマンスを推定します)。これを明確にするために投稿を編集します。
ベン・クーン

100%

なぜ相互検証を使用しないことを検討していると思いますか?私は具体的に言った、「...なお、相互検証を使用して、ハイパーパラメーターの各セットのパフォーマンスを推定します」。
ベン・クーン

1
γ=γγ

2
あなたの質問を完全に誤解しました。編集前は非常に混乱していました。ところで、あなたが興味を持っていると思われるバイアスは、必ずしもポジティブではありません。多くのアプローチは、より多くのトレーニングデータを与えたときに劇的に優れたモデルを生成するため、これは特に小さなトレーニングセット+相互検証に関連します。
マーククレセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.