分割交差検証推定値のとしての分散:「安定性」の役割は何ですか?


37

TL、DR:それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション(LOO-CV)が表示さ-であり、でCVを倍(折り目の数)に等しい(数トレーニング観測値)-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します(どちらがわからない私はこの安定条件を本当に理解していないので正しいです)。K N KKKNK

  • 誰かがこの安定条件が何であるかを正確に説明できますか?
  • 線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか?

従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、(2に近づきます)(接近)以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素(セクション7.10.1)」で最も顕著に示されています。K K K N KKKKKNK

K = Nの場合、クロス検証推定器は真の(予想される)予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。

意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは(例えば、このサイトで多くの回答で繰り返されているここでここではここではここではここではここでは、とここではその代わり、)などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。N

ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています(強調を追加)。このペーパー(セクション5.2)は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文(結果2)もあります。これは、「倍交差検証の分散[...]は依存しないk kKkk、」再び特定の「安定性」条件を引用しています。

LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差(MSE)の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKNK。そして、これが真実であることはまったく明らかではありません。

これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット(MSE単位)でのCV推定の結果の平均と分散は次のとおりです。K K NNKKN

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

これらの結果は、値が高いほど悲観的バイアスが低くなるという予想されるパターンを示していますが、LOVの場合、CV推定値の分散が最高ではなく最低であることも確認しているようです。K

したがって、線形回帰は、上記の論文で言及された「安定した」ケースの1つであり、増加はCV推定の分散の増加ではなく減少に関連しているように見えます。しかし、私がまだ理解していないことは:K

  • この「安定性」状態とは正確には何ですか?モデル/アルゴリズム、データセット、またはその両方にある程度適用されますか?
  • この安定性について直感的に考える方法はありますか?
  • 安定および不安定なモデル/アルゴリズムまたはデータセットの他の例は何ですか?
  • ほとんどのモデル/アルゴリズムまたはデータセットが「安定」しているため、一般的には計算上実行可能な限り高い値を選択する必要があると想定するのは比較的安全ですか。K

1
+1。シミュレーション結果の「平均」とは何ですか?汎化誤差の平均CV推定(10000個のデータセットにわたる平均)?しかし、何と比較すべきでしょうか?バイアス、つまり真の一般化誤差からの二乗平均偏差を示す方が意味があります。また、この場合の「真の一般化エラー」とは何ですか?与えられたN = 100データセットの推定値の真の一般化エラー?または、真の一般化エラーの期待値(すべてのN = 100データセットでの期待値)?または、他の何か?
アメーバは、

3
+1。en.wikipedia.org/wiki/を一見した後、このコンテキストでは、安定性とは、アルゴリズムがおよび例を含むトレーニングセットで同様の結果を生成することを意味するようです。同様の意味は、低い値で区切られた損失関数との差を意味しますN 1NN1
–ukasz Grad

1
それとは別に、最近コメントで@DikranMarsupial(おそらくCVでの相互検証の主な専門家の1人)と話しました -彼はKohaviの1995年の論文を読むことを提案しました。ディクランは安定性についても話していました。残念ながら、それ以降はフォローアップしませんでした。
アメーバは、モニカの復活を

2
@Jake、そうは思いません。私が書いたものはあなたの「反直感」を無効にしますが、主な「直観」(高度に依存している異なる折り畳みからのモデルについて)はまだ保持できます。
アメーバは、

1
stats.stackexchange.com/a/357749/28666で分散が減少するという結論を裏付ける別のシミュレーション。K
アメーバは、モニカを復活させる

回答:


15

この答えは、LOOCV が常により高い分散につながらない理由を議論する、バイアスとleave-one-out対K-foldクロス検証の分散の私の答えに続きます。同様のアプローチに従って、LOOCV 外れ値と「不安定なモデル」の存在下でより高い分散をもたらす場合を強調します。

アルゴリズムの安定性(学習理論)

アルゴリズムの安定性のトピックは最近のものであり、過去20年の間にいくつかの古典的な影響力のある結果が証明されています。よく引用される論文をいくつか紹介します

理解を得るのに最適なページは、おそらく非常に知識のあるユーザーが書いた優れた要約を提供するウィキペディアのページです。

安定性の直感的な定義

直観的には、安定したアルゴリズムとは、トレーニングデータがわずかに変更されても予測があまり変化しないアルゴリズムです。

正式には、技術的な条件と階層によってリンクされた安定性の半ダースのバージョンがあります。たとえば、ここのこのグラフィックを参照してください。

ここに画像の説明を入力してください

ただし、目的は単純です。アルゴリズムが安定性の基準を満たしている場合、特定の学習アルゴリズムの一般化エラーの厳密な境界を取得します。予想されるように、安定性の基準が制限されるほど、対応する境界はより厳しくなります。

表記法

次の表記はウィキペディアの記事からのものであり、それ自体がBousquetとElisseefの論文をコピーしています。

  • S={z1=(x1,y1),...,zm=(xm,ym)}
  • VfzV(f,z)
  • iS|i={z1,...,zi1,zi+1,...,zm}
  • iSi={z1,...,zi1,zi,zi+1,...,zm}

正式な定義

おそらく、興味深い学習アルゴリズムに従うと予想される安定性の最も強力な概念は、均一な安定性の概念です。

βV

SZm  i{1,...,m},  sup|V(fs,z)V(fS|i,z)|  β

関数と見なされるため、という用語はと書くことができます。ようにが減少した場合、アルゴリズムは安定していると言います。安定性のやや弱い形式は次のとおりです。mββmβm1m

仮説の安定性

i{1,...,m},  E[ |V(fs,z)V(fS|i,z)| ] β

1つのポイントが削除されると、学習アルゴリズムの結果の差は、損失の平均絶対差(ノルム)によって測定されます。直感的に:サンプルの小さな変化は、アルゴリズムを近くの仮説にのみ移動させることができます。L1

これらの形式の安定性の利点は、安定したアルゴリズムのバイアスと分散の境界を提供することです。特に、ブスケは、多くの仕事は、2011年には、たとえば、安定条件を緩和し、境界を一般化しようとするために行われました。それ以来、2002年に統一し、仮説の安定性のためにこれらの限界を証明し、ケール、クマー、Vassilvitskiiがあると主張平均二乗安定性 より良い分散定量的分散削減境界を提供します。

安定したアルゴリズムの例

次のアルゴリズムは安定していることが示されており、一般化の限界が証明されています。

  • 正則化された最小二乗回帰(適切な事前分布を使用)
  • 0-1損失関数を持つKNN分類器
  • 境界のあるカーネルと大きな正則化定数を持つSVM
  • ソフトマージンSVM
  • 分類のための最小相対エントロピーアルゴリズム
  • バギングレギュラライザーのバージョン

実験シミュレーション

前のスレッドからの実験を繰り返して(ここを参照)、データセットに特定の比率の外れ値を導入します。特に:

  • データの97%に均一なノイズがあります[.5,.5]
  • 均一なノイズを含むデータの3%[20,20]

次多項式モデルが正則されていない、それは重く、小さなデータセットのためのいくつかの外れ値の存在によって影響されます。大規模なデータセットの場合、または外れ値が多い場合、それらの効果は相殺される傾向があるため小さくなります。60および200データポイントの2つのモデルについては、以下を参照してください。3

ここに画像の説明を入力してください

以前のようにシミュレーションを実行し、結果の平均MSEとMSEの分散をプロットすると、Bengio&Grandvalet 2004論文の実験2と非常によく似た結果が得られます。

左手側:異常値なし。右手側:3%の外れ値。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

(最後の図の説明については、リンクされたペーパーを参照してください)

説明

他のスレッドでのYves Grandvaletの答えを引用:

直観的には、[不安定なアルゴリズムの状況で] leave-one-out CVは存在する不安定性を盲目にするかもしれませんが、トレーニングデータの単一ポイントを変更してもトリガーされない場合があります。トレーニングセット。

実際には、LOOCVによる分散の増加をシミュレートすることは非常に困難です。不安定性、いくつかの外れ値はあるが多すぎないこと、および多数の反復の特定の組み合わせが必要です。おそらく、線形回帰は非常に安定していることが示されているため、これが予想されます。興味深い実験は、より高次元のデータとより不安定なアルゴリズム(決定木など)でこれを繰り返すことです。


+1しかし、このスレッドがリンクされたスレッドの複製として最終的に閉じられることを願っています(賞金期間が終了し、議論が沈静化するまで待って、どの答えが受け入れられるかを確認します)。後でコメントします。
アメーバは、モニカを復活させる

質問が重複しているとは本当に確信していません。私の質問では、LOOの問題の分散を主に、「安定性」が何を意味するかについてのわかりやすい説明を取得しようとする主要な質問を組み立てる方法として使用します。そういえば、この答えは役に立ちますが(+1)、安定性の質問に答えようとしたことはわかりません...何度かこの用語を使用していますが、読者はそれが何を意味するか既に知っていると仮定します。現在の形式で回答を受け入れることができるかどうかはわかりません。
ジェイクウェストフォール

1
@JakeWestfallこのスレッドが最終的に複製として閉じられることを「期待」すると書いたとき、そのスレッドで受け入れられた答えが最終的にあなたが尋ねたものをカバーするのに十分であることを願っています:) Bengio&Grandvaletの論文、実験2をご覧ください。線形回帰とガウスデータを使用すると、LOOCVの最小分散が得られます(これも結果です)が、データに外れ値の一部が含まれている場合、LOOCVは10折ります これは、関連する「安定性」が何であるかを示唆していると思います。
アメーバは、モニカーを復活させる

3
@XavierBourretSicotteが大好きです。この回答で素晴らしい仕事をしてくれてありがとう。
ジェイクウェストフォール

1
はい、この論文を引用します:pdfs.semanticscholar.org/bf83/…:「安定したアルゴリズムには、学習セットの1つの要素を置き換えても結果が大きく変わらないという性質があります。その結果、経験的エラーは、ランダム変数は、小さな分散を持つ必要があります安定したアルゴリズムは、経験的エラーが一般化エラーに近い良い候補になる可能性があります
Xavier Bourret Sicotte

2

私はあなたが引用する段落の文脈で私の答えを与えます:

K = Nの場合、クロス検証推定器は真の(予想される)予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。

真の(予想される)予測誤差のCV推定量は、トレーニングセットの例に基づいているため、ここで正しく理解している場合、トレーニングセットのサンプルを超える期待があります。

そのため、「高分散」に関するこのパラグラフは、予想される誤差とCVによって推定された誤差(ここでは倍の平均)の間に「大きな」差があることを示しています。

モデルは特定のトレーニングセットに適合しており、すべてのトレーニングフォールドがleave-one-out内で非常に似ているため、これは理にかなっています。ただし、トレーニングフォールドはCVラウンド内で非常に似ていますが、CVのトレーニングサンプルを交換する場合、推定値はおそらく大きく異なります。kフォールドCVでは、トレーニングフォールドを「多様化」するため、平均化の影響があり、kフォールド全体で、推定値の変動は小さくなります。

または、言い換えれば、leave-one-out CV推定器は、フォールドを回転させず、1つの検証セットに基づいてエラー推定を行わない場合、基本的にホールドアウトメソッドに似ています。繰り返しますが、トレーニングの例では、k倍からの推定と比較して高い分散があります.k倍のラウンド内である程度多様なモデルを既にトレーニングすることにより、倍以上の平均を計算します(つまり、トレーニングセットを交換すると、 k-foldによるエラーはおそらくそれほど変化しません)。

編集:

クロスバリデーションおよびインターネット全般に関するいくつかの回答をここで読んだとき、どの推定量を参照しているのか混乱しているように思います。一部の人々は、分散が大きいモデル(損失が支配的な分散成分を持つMLトークがある)とk倍CV推定量の高い分散を参照していると思います。また、別の回答のセットでは、誰かが「k-foldの分散が高い」と言ったときの分散に関するサンプル分散として分散を参照します。どちらの場合も答えが異なるため、具体的にすることをお勧めします。


分散を議論するとき、私の想定は、ここで定義されているトレーニングセットDのCV推定量の分散について話していることです:stats.stackexchange.com/questions/365224/…およびここで:stats.stackexchange.com/questions/325123/…。Yves GrandvaletとBengioは、2004年の論文で、CVが予想される予測誤差を推定すると主張しています。ここで彼の応答を見ることができます:stats.stackexchange.com/a/358138/192854
Xavier Bourret Sicotte

分散のさまざまな定義に基づいて答えを作成する場合、正式な定義と公式を追加すると役立つと思います。おそらく、私は..だけでなく、私の答えで行う必要があります
ザビエル・ブーレSicotte

はい、文献を少しレビューする必要があり、いくつかの式を答えに追加する必要があります。統計学習の要素からの引用はまだ直感的です。モデルの分散が大きい場合、LOOCVの分散は大きくなります。なぜなら、それはフォールド全体の平均だからです。モデルのバイアスが大きい場合、LOOCVとkフォールド推定量の両方の分散は(バイアスとは無関係に)低いはずです。予測はそれほど変化しないからです。しかし、段落のポイントは問題でした。ほとんどの場合、k倍と比較したLOOCV

引用は不正確であることが示されている-少なくとも一般化として-私の答えに引用された複数の論文を参照
ザビエル・ブーレSicotte

1

私たちは以前これを経験しました-あなたは死んだ馬について数学的になりすぎています。CVに関するRon Kohavi(Stanford-Univ)の古典的な論文とバイアス分散のジレンマを参照してください。これを読み終えたら、LOOCVを実行したくはないでしょうし、おそらく10倍のCVやブートストラップバイアスCVに引き付けられるでしょう。

また、大規模なデータセットについても考慮する必要があります。LOOCVの場合、計算コストが非常に高くなります。現在、ほとんどのグループのワークフロー/パイプラインでは、LOOCVは実際にはオプションではありません。

この「安定性」状態とは正確には何ですか?モデル/アルゴリズム、データセット、またはその両方にある程度適用されますか?

すべてのコスト関数のユニバースとすべての機能セットのユニバースでは、全体的に「安定性」インデックスがあるとは思わないでしょう。なぜなら、それは許容できないものではなく、無限に大きなセットの下で分解しやすいからです条件。基本的に、dfパラメータや#パラメータが非常に大きいため、さらに多くのトレーニングデータが必要な場合は、が適切です。より多くのデータが使用されるため、バイアスはでも大きくなります。トレーニングデータセットが互いにあまりにも似ているため、分散は人為的にゼロになります。また、場合、データのノイズが多くなります。 k=nk=nk=n

分類子としてのLREGは、データが線形分離可能である場合は機能しますが、多くのデータセットは線形分離可能でないため、平均してそのバイアスは高すぎます。

この安定性について直感的に考える方法はありますか?

私の見解ではありません-安定性に関する一般的なルールがないためです。

安定および不安定なモデル/アルゴリズムまたはデータセットの他の例は何ですか?

これは無制限で広すぎます。無限に多数の応答が考えられるため、役に立たないでしょう。

ほとんどのモデル/アルゴリズムまたはデータセットが「安定」しているため、一般的には計算上実行可能な限り高い値を選択する必要があると想定するのは比較的安全ですか。K

いいえ。いいえ、のみに依存するのは、データを信じていることを前提としています。例はランダムフォレストで、実際にははありません。データの約37%がテストに使用されますが(平均して、置換のサンプリングでは37%のオブジェクトが選択されません)、たとえば5,000の異なるデータセット(ブートストラップ)があり、それぞれが異なる方法でトレーニング/テストに分割されます。論文から引き出されたあなたの例は、使用された各データセットがデータの真の実現であると仮定しました-これは誤った仮定です。 kkk

所与のブートストラップ、安定周囲のルール関与する直接的CVアプローチのために使用されるデータサンプルので、許容されサンプルが得られたすべてのデータの母集団の真の実現ではありません。 kkk


コメントありがとうございます。しかし、これは質問に答えていないようです。
ジェイクウェストフォール

OPの追加の回答を参照してください。
-JoleT

3
記事をざっと読んだだけでしたが、彼らは本当に非常に不安定な地面で10倍がベストであると主張しているようです。私は7k回の引用があるとは信じられません。そうは言っても、10倍以上に多くのメリットがあると信じるに十分な理由があるようです。機会があれば、もっと徹底的に読んでください。
クリフAB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.