交差検証を使用する場合の1つの標準エラールールの経験的正当化


39

par約を支持する1つの標準エラールールの使用を正当化する実証研究はありますか?明らかに、データのデータ生成プロセスに依存しますが、データセットの大規模なコーパスを分析するものは非常に興味深い読み物です。


「1つの標準エラールール」は、相互検証(またはより一般的にはランダム化ベースの手順)を通じてモデルを選択するときに適用されます。

場合、がよりも「より複雑」であるように、複雑さパラメーターによってインデックス付けされたモデルを考慮すると仮定します。さらに、クロス検証などのランダム化プロセスによってモデル品質を評価するとします。してみましょうの「平均」の品質表す例えば、多くのクロスバリデーションの実行間の平均のアウトバッグ予測誤差を。この量を最小限に抑えたい。MττRMτMττ>τMq(M)M

ただし、品質尺度はランダム化手順に基づいているため、ばらつきがあります。ましょ品質の標準誤差を表すランダム実行横切って、例えば、のアウトオブバッグ予測誤差の標準偏差クロスバリデーション実行オーバー。s(M)MM

次に、モデルを選択します。ここで、は次のような最小のです。Mτττ

q(Mτ)q(Mτ)+s(Mτ),

ここで、は(平均して)最良のモデルインデックスを付けます。τq(Mτ)=minτq(Mτ)

つまり、ランダム化手順の中で、最良のモデルM _ {\ tau '}よりも1つの標準誤差だけ悪い、最も単純なモデル(最小の τ)を選択します。Mτ

この「1つの標準エラールール」が次の場所で参照されていることを発見しましたが、明示的に正当化することはありません。


7
「1つの標準エラールール」であなたが言っていることは知っていますが、多くの人はそうは思わないでしょうが、もしそうならこの質問に興味があるでしょう。編集して、説明文をいくつか追加することもできますか?(ちょうど提案...)
jbowman

2
@jbowman:1つの標準エラールールを説明するために質問を編集しましたが、これにも非常に興味があるのでそれをぶつけました... どなたでも、お気軽に改善してください。
S. Kolassa -復活モニカ


2
それは論文のいいトピックになるでしょう。賢明なエンジニアリングヒューリスティックのように見えますが、すべてのSEHが実際に機能するわけではないため、多数のデータセットを調査することは興味深いでしょう。複数の仮説テストの問題が関係しているかどうか疑問に思いますが、それはあまりうまく調整されていないことを意味するかもしれませんが、このようなオーバーチューニングが行われる可能性が高いデータセットで何もしないよりも良いと思っていたでしょう問題。問題は、それが問題ではないデータセットでパフォーマンスを大幅に悪化させることですか?
ディクランMarsupial

回答:


12

以下は経験的な研究ではありません。だから私はもともとコメントではなく答えとして投稿したかったのですが、実際にはコメントするには長すぎます。

Cawley&Talbot(J of Machine Learning Research、2010)は、モデル選択フェーズでのオーバーフィットとモデルフィッティングフェーズでのオーバーフィットの違いに注目しています。

2番目の種類の過剰適合は、ほとんどの人がよく知っているものです。特定のモデルが与えられた場合、過剰適合、つまり、通常持っている単一のデータセットの特定の特異性にあまり適合させたくありません。(これは、分散の大きな減少に対してバイアスの小さな増加をトレードすることにより、収縮/正則化が役立つ場合がある場所です。

ただし、Cawley&Talbotは、モデルの選択段階でも同様にオーバーフィットできると主張しています。結局のところ、通常はまだ1つのデータセットしかなく、さまざまな複雑さの異なるモデルを決定しています。候補モデルを選択するために各候補モデルを評価するには、通常、そのモデルを適合させる必要があります。これは、正則化を使用するかどうかを使用して実行できます。ただし、この評価自体もランダム変数です。これは、特定のデータセットに依存しているためです。そのため、「最適な」モデルの選択は、それ自体でバイアス示し、母集団から引き出した可能性のあるすべてのデータセットの特定のデータセットに応じて分散示します。

したがって、Cawley&Talbotは、この評価で最高のパフォーマンスを発揮するモデルを選択するだけで、バイアスが小さい選択ルールになる可能性が高いと主張していますが、大きな分散を示す可能性があります。つまり、同じデータ生成プロセス(DGP)からの異なるトレーニングデータセットが与えられた場合、このルールは非常に異なるモデルを選択し、同じDGPに続く新しいデータセットの予測に適合および使用されます。この観点から、モデル選択手順の分散を制限するが、より単純なモデルへの小さな偏りが生じると、サンプルからの誤差が小さくなる可能性があります。

Cawley&Talbotは、これを1つの標準エラールールに明示的に関連付けておらず、「モデル選択の正規化」に関するセクションは非常に短いです。ただし、1つの標準エラールールはこの正則化を正確に実行し、モデル選択の分散とout-of-bag相互検証エラーの分散の関係を考慮します。

たとえば、以下はHastie、Tibshirani&Wainwright(2015)による統計的学習とスパース性の図2.3 です。モデル選択の分散は、最小の黒い線の凸性によって与えられます。ここでは、最小値はそれほど顕著ではなく、線はやや弱く凸であるため、モデルの選択はおそらく分散が高く不確かです。また、OOB CV誤差推定値の分散は、標準誤差を示す複数の水色の線で示されています。

1つの標準エラールール


1
ハハ、この検索を試してください(またはクエリにハイフンを入れてください)。
アメーバは、モニカーを復活させる

2
正則化パラメーターが1つしかない場合、その種の過剰適合はあまり問題になりません(最適化問題には1つの自由度しかないため)が、多くの正則化パラメーターがある場合(たとえば、ニューラルネットの自動関連性判定)その後、すぐに非常に重要なものになります。1枚のSD法では、オーバー最適化回避正則化パラメータをのための素晴らしい発見的であるが、もう少し正当化(1/2)で何かをしようとして持っていいだろう
Dikran有袋類

1
私たち(Mrs MarsupialとI)が調査した2つのアプローチは、分析的に統合されたハイパーハイパーパラメーターでハイパーパラメーターを正規化することです(jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf)またはハイパーパラメーターの一部をパラメーターに変換し、データに直接適合させますが、追加の正則化パラメーターを追加することを犠牲にします(ただし、モデル選択の自由度が低下するため、依然として役立ちます)(theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf)(2/2)
Dikran有袋類

1
ちなみに、モデル選択での過剰適合は、トレーニングセットの過剰適合または不足適合をもたらす可能性があり、それにより、問題の診断が少し難しくなります。ベイジアンの観点からすると、最適なことは最適化することではなく、を無視することですが、これは計算コストが高くなるか、トリッキーまたはその両方です。1sdルールの大きな利点は、それがそのスペクトルのもう一方の端にあり、エンジニアであるということです。私は動作する単純なものが好きです; o)(3/2)λ
ディクランマースピアル

1
@DikranMarsupialが言及したlambda-over-marginalizing-lambdaトピックの最適化に関するスレッドの1つはstats.stackexchange.com/questions/24799です。その議論はリッジ回帰に関するものであり、辺縁化はおそらく投げ縄/エラスティックネット/などに対して(?)トリッキーです。一方、CVの美しさは実装がとても簡単なことです。
アメーバは、モニカーを復活させる

12

経験的な正当化については、これらのTibshiraniデータマイニングコースノートの 12ページを参照してください。特定のモデリング問題のCVエラーをラムダの関数として示しています。提案は、ある値以下では、すべてのラムダがほぼ同じCVエラーを与えると思われます。これは、リッジ回帰とは異なり、LASSOは通常、予測精度を向上させるためだけに使用されることはなく、主に使用されることもないためです。その主なセールスポイントは、最も関連性の低い/価値のある予測子を排除することにより、モデルをよりシンプルで解釈しやすくすることです。

ここで、1つの標準エラー規則を理解するために、さまざまなから得られるモデルのファミリーについて考えてみましょう。Tibshiraniの図は、予測精度がほぼ同じである中から高複雑度モデルの束と、予測が得意でない低複雑度モデルの束があることを示しています。何を選ぶべきですか?を使用している場合は、おそらく節約的なモデルに興味があるので、アインシュタインを言い換えると、データを合理的に説明する最も単純なモデルを好むでしょう。それでは、これらすべての高複雑度モデルと「ほぼ同じ」最低複雑度モデルについてはどうでしょうか。そして、「ほぼ同じくらい」を測定する良い方法は何ですか?1つの標準エラー。λL1


1
この答えの論理はわかりません。例:「リッジ回帰とは異なり、LASSOは予測精度を向上させるメカニズムではありません」-なぜですか?なぜL1はL2とそれほど違うのですか?次の文では、低ラムダのL1で何が起こるかを説明しますが、低ラムダのL2でも同じことが起こると思います。
アメーバは、モニカを復活させる

1
これはヒューリスティックな説明であり、すべての予測変数が有益であるように、記載されていない仮定に依存していることに注意してください。大量のノイズ予測変数といくつかの有益な予測変数がある場合、CVメトリックを明確かつ顕著に最適化するラムダの値が存在する可能性があります。これは、有益な予測変数のサブセットの選択に対応するものです。ラムダがその値を下回ると、ノイズを入れてモデルを傷つけているだけです。
ポール

1
より多くの正則化->より単純なモデルでpar約の広範な定義を使用する場合、引数はリッジと投げ縄に対して等しくうまく機能すると思います。ただし、L1ではL2よりもさまざまな種類の問題やデータセットが使用されるため、やる気を起こさせるのは簡単です。L1を使用する人は、単純なモデルを持つことに関心があり、Tibshiraniが示す種類のCVエラー曲線に遭遇する可能性が高くなります。
ポール

1
古典的なESLテキストから。224:「多くの場合、「1つの標準エラー」ルールが交差検証で使用されます。このルールでは、エラーが最良のモデルのエラーよりも1つの標準エラーだけ多い最もmost約なモデルを選択します。」与えられた例はサブセット回帰であり、膝形の曲線対予測変数の数が示されています。曲線は、予測子の正しい数の上で平坦であり、これは上記の説明と一致しています。厳密なまたは数学的正当化は言及されていません。
ポール

1
したがって、ここでの主な問題は、最小値の決定が不十分であるが、最小値の1シグマ内で最も正規化されたモデルが明確に定義されていることだと思います。
ポール

1

Lasso推定器によって選択される変数の数は、ペナルティ値によって決定されます。大きいほど、選択された変数のセットは小さくなります。してみましょう ペナルティとして使用して、選択した変数のセットで。 λλS^(λ)λ

してみましょうクロスバリデーション関数の最小値を使用して選択ペナルティこと。であることが証明できます。ここで、は実際には0以外の変数のセットです(真の変数のセットは、ペナルティとしてクロス検証の最小値を使用して推定されたセットに厳密に含まれています)。λP(S0S^(λ))1S0

これは、Bühlmannとvan de Geerによる高次元データの統計で報告されるべきです。

ペナルティ値は、多くの場合、相互検証によって選択されます。これは、高い確率で選択される変数が多すぎることを意味します。選択した変数の数を減らすために、1つの標準エラールールを使用してペナルティを少し増やします。λ


1
ここでもう少し詳しく説明できますか?これは魅力的です。
DavidShor

1
これは、高い確率で選択される変数が多すぎることを意味します。-私にはそれがなぜ明白ではない、そしてなぜ高い確率過ぎると、いくつかの変数を選択することができませんでした。結局、相互検証された選択は、Stephen Kolassaの回答で述べられているように、バイアスがほとんどないがおそらく分散が大きい推定値を与えるはずです。λ
リチャードハーディ

実際には、必要以上の変数を選択すると、十分な変数を選択しない場合よりも予測パフォーマンスが低下することになると思います。このため、CVはより多くの変数を選択する傾向があります。
ドンベ

この本springer.com/gp/book/9783642201912およびこちらの投げ縄の章をご覧ください。drive.google.com
open?

これは私が意味した本です
Donbeo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.