相互検証での条件付きテストエラーと予想されるテストエラーの意味


8

クロス検証に関する私の教科書は、ハスティらによる統計学習の要素です。(第2版)。セクション7.10.1及び7.12において、それらは、条件テストエラーとの差の話と期待されるテスト誤差Eをτ [ E X *Y * [ L Y FX

EバツY[LYf^バツ|τ]
ここで、はトレーニングデータセット、は損失関数、はトレーニングされたモデルです。は期待です。
Eτ[EバツY[LYf^バツ|τ]]
τLf^τE

彼らは、CVは予想されるテストエラーをよく推定するだけであると説明しました。

私の質問は、条件付きテストのエラーを気にする理由はありますか?

私が考えることができる唯一の理由は、「神がテーブルにデータセットを置いたが、モデルに合うように1つだけ家に持ち帰ることができる場合、どれを選択すればよいか」という質問に答えたいということです。

回答:


5

条件付きテストのエラーを誤解していると思います。これは、Hastie、Friedman、およびTibshirani(HFT)の用語に一貫性がなく、同じ概念を「テストエラー」、「一般化エラー」、「独立テストセットの予測エラー」、「真の条件付きエラー」と呼ぶ場合があるためと考えられます、または「実際のテストエラー」。

τ

それがうまくいったら、本当の問題は、なぜ予想されるテストエラーを気にする必要があるのか​​です!(HFTはこれを「予想される予測エラー」とも呼んでいます。)結局のところ、これは通常使用することのないあらゆる種類のトレーニングセットの平均です。(ちなみに、HFTは予想されるテストエラーを定義する際に、特定のサイズのトレーニングセットの平均を意図しているように見えますが、これを明示することはありません。)

その理由は、予想されるテストエラーは、特定のトレーニングセットで運が良かったかどうかのばらつきを平均化するため、学習アルゴリズムのより基本的な特性であるためです。

あなたが言及したように、HFTは、CVが条件付きテストエラーを推定するよりも、予想されるテストエラーをよりよく推定することを示しています。機械学習アルゴリズムを比較している場合はこれは幸運ですが、特定のトレーニングセットに適合する特定のモデルがどの程度うまく機能するかを知りたい場合は残念です。


τ

1
直感的には、手順全体がトレーニングデータの変更に基づいているため、CVが条件付きテストエラーに対してそれほど大きくないことは私には理にかなっています。(条件付きテストエラーの最良の推定値を得るには、別のテストセットが必要です。)しかし、特にLOOCVに関連するトレーニングセットの小さな変更がこれに十分である理由を尋ねることは公正です。
コディオロジスト2016年

@amoebaあなたは私の注意を引いた何かを言った。LOOCVは、10倍のCVと比較して、条件付きエラーを推定するより直接的な方法のようです。しかし実際、HTFブックの255ページは、シミュレーションの演習から、10倍のCVが条件付き誤差を推定するためのより良い方法であることを示しています。これもやはり心配だと思います
チェンバレンフォン

0

私は同じ節について考えていて、条件付きテストエラーにいつ興味があるのか​​についても考えています。さらに、私が理解できる限り、それらは漸近的に同じである必要があります。非常に大規模なトレーニングおよびテストセットの場合、正確なトレーニング/テストセットの分割により、異なる条件付きテストエラー推定が発生しなくなります。あなたがハスティらで見ることができるように。条件付きの例を予約します-予想される差異は常に比較的少数の観察に基づいています。これが正しく理解されていれば、条件付きテストエラーと予想されるテストエラーがグラフで異なって見える理由です。

この本は、(条件付きの)テストエラーはそうではないが、予想されるテストエラーはトレーニングセットのランダム性に対して平均することを述べています。ここで、特定のトレーニング/テストセットパーティションに関連する不確実性を考慮に入れたいのはいつですか?私の答えは、この種の不確実性を収容することに通常は決して関心がないということです。これは、モデル評価を行うときに私が関心を持っているものではないためです。明日の天気を予報するとしましょう。テストデータはトレーニングデータに関連しているので、明日の天気は私の全体的なデータにかなり関連しています。したがって、モデルを評価するために1つの条件付きテストエラーを計算します。しかしながら、明日の天気は、1つの特定のテストセットが対応する特定のトレーニングセットに関連しているようではなく、平均テストセットが平均トレーニングセットにどのように関連しているかのように、私の全体的なデータに関連しています。そのため、次のトレーニング/テストセットパーティションを取得し、別の条件付きテストエラーを取得します。私はこれを何度も行います(たとえば、K分割交差検証の場合)-個々の条件付きテストエラーの変動は平均化されます-期待されるテストエラーが残ります。繰り返しますが、これは私が取得したいと考えることができるすべてです。K分割交差検証)-個々の条件付きテストエラーの変動は平均化されます-予想されるテストエラーが残ります。繰り返しますが、これは私が取得したいと考えることができるすべてです。K分割交差検証)-個々の条件付きテストエラーの変動は平均化されます-予想されるテストエラーが残ります。繰り返しますが、これは私が取得したいと考えることができるすべてです。

言い換えると、Hastieらのテストエラー/期待されるテストエラーのグラフでは、モデル推定器の効率がわかります。条件付きテストエラーが予想されるテストエラーの周りに広く分散している場合、これは推定器を示しています。非効率的ですが、条件付きテストエラーの変動が少ないほど、観測量が与えられれば、より効率的な推定量を示します。

結論:私はここで間違っているかもしれませんが、これについては修正させていただきますが、現時点では、条件付きテストエラーの概念は、1つのトレーニングのみを許可して外部モデルの妥当性を評価しようとする疑わしい試みです/ test-partitioningショット。大きなサンプルの場合、この1つのショットは、多くのトレーニング/テストパーティションショットで平均化された条件付きテストエラー、つまり予想されるテストエラーと同等でなければなりません。差が生じる小さなサンプルの場合、関心のある実際の測定値は、条件付きテストエラーではなく、予想どおりであると私には思われます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.