MNISTデータセットの分類に関する問題を考えてみましょう。
Yann LeCunのMNIST Webページによると、「Ciresan et al。」畳み込みニューラルネットワークを使用したMNISTテストセットで0.23%のエラー率を得ました。
レッツとして示すMNISTトレーニングセット、としてMNISTテストセット、最終的な仮説は、彼らが使用して得られたとして、およびMNIST試験に彼らの誤り率が使用して設定のようにE t e s t(h 1)= 0.0023。
彼らの観点では、はに関係なく入力空間からランダムにサンプリングされたテストセットであるため、最終仮説サンプル外エラーパフォーマンスは次のように制限されると主張できますHoeffdingの不等式 N個のT E S T = | D t e s t | 。
換言すれば、少なくとも確率が、 E O U T(H 1)≤ E T E S T(H 1)+ √
別の視点を考えてみましょう。MNISTテストセットを適切に分類したい人がいるとします。そこで、彼は最初にYann LeCunのMNIST Webpageを見て、8つの異なるモデルを使用している他の人々によって得られた以下の結果を見つけました。
そして、8つのモデルの中でMNISTテストセットで最高のパフォーマンスを発揮するモデルを選びました。
彼にとって、学習プロセスは、仮説セットH t r a i n e d = { h 1、h 2、...からテストセットD t e s tで最適に実行される仮説を選択していました。。、h 8 }。
したがって、テストセットのエラーは、この学習プロセスの「サンプル内」エラーであるため、次の不等式として有限仮説セットのVC境界を適用できます。 P [ | E O U T(G )- E I N(G )| < ε ] ≥ 1 - 2 | H t r a i n e d | e 2 ϵ 2 N
換言すれば、少なくとも確率が、 E O U T(G )≤ E T E S T(G )+ √
この結果は、複数のモデルの中でモデルのパフォーマンスが最高になるように選択した場合、テストセットが過剰適合になる可能性があることを意味します。
この場合、人は選ぶかもしれません。これは最も低いエラー率E t e s t(h 1)= 0.0023です。以来、H 1は、この特定のテストセットに8つのモデルの間で最良の仮説であるDとTのE S T、といういくつかの可能性が存在し得るH 1 MNISTテストセットにoverfitted仮説です。
したがって、この人は次の不平等を主張できます。
その結果、2つの不等式
しかし、これら2つの不等式には互換性がないことは明らかです。
どこで間違っていますか?どちらが正しいか、どちらが間違っているか?
後者が間違っている場合、この場合の有限仮説セットにVC限界を適用する正しい方法は何ですか?