Vapnik-Chervonenkis(VC)-dimensionニューラルネットワークのための式の範囲にと、最悪の場合、でエッジの数であり、ノードの数です。一般化を強力に保証するために必要なトレーニングサンプルの数は、VC次元に比例します。
つまり、成功するディープラーニングモデルの場合のように、数十億のエッジを持つネットワークの場合、トレーニングデータセットには、最良の場合は数十億、最悪の場合は数千個のトレーニングサンプルが必要です。現在、最大のトレーニングセットには約1,000億のサンプルがあります。十分なトレーニングデータがないため、深層学習モデルが一般化されている可能性は低いです。代わりに、彼らはトレーニングデータをオーバーフィットしています。これは、モデルがトレーニングデータとは異なるデータに対してうまく機能しないことを意味します。これは、機械学習にとって望ましくない特性です。
深層学習が一般化できないことを考えると、VCの次元分析によれば、なぜ深層学習の結果はそれほど誇大宣伝されているのでしょうか?一部のデータセットで単に高い精度を持っているだけでは、それだけでは意味がありません。深層学習アーキテクチャについて、VC次元を大幅に削減する特別なものはありますか?
VC次元分析に関連性がないと思われる場合は、深層学習が一般化されており、過剰適合ではないという証拠/説明を提供してください。すなわち、それは良いリコールと精度を持っていますか、それとも単に良いリコールを持っていますか?100%の再現率は、100%の精度と同様、簡単に達成できます。両方を100%に近づけることは非常に困難です。
反対の例として、ディープラーニングが過剰適合であるという証拠があります。過適合モデルは、決定論的/確率的ノイズを組み込んでいるので、だまされやすいです。オーバーフィッティングの例については、次の画像を参照してください。
また、テストデータの精度が高いにもかかわらず、オーバーフィットモデルの問題を理解するには、この質問に対する下位の回答を参照してください。