コンピュータサイエンス vc-dimension

7

Vapnik-Chervonenkis（VC）-dimensionニューラルネットワークのための式の範囲にと、最悪の場合、でエッジの数であり、ノードの数です。一般化を強力に保証するために必要なトレーニングサンプルの数は、VC次元に比例します。O （E）O（E）O(E)O （E2）O（E2）O(E^2)O （E2V2）O（E2V2）O(E^2V^2)EEEVVV つまり、成功するディープラーニングモデルの場合のように、数十億のエッジを持つネットワークの場合、トレーニングデータセットには、最良の場合は数十億、最悪の場合は数千個のトレーニングサンプルが必要です。現在、最大のトレーニングセットには約1,000億のサンプルがあります。十分なトレーニングデータがないため、深層学習モデルが一般化されている可能性は低いです。代わりに、彼らはトレーニングデータをオーバーフィットしています。これは、モデルがトレーニングデータとは異なるデータに対してうまく機能しないことを意味します。これは、機械学習にとって望ましくない特性です。深層学習が一般化できないことを考えると、VCの次元分析によれば、なぜ深層学習の結果はそれほど誇大宣伝されているのでしょうか？一部のデータセットで単に高い精度を持っているだけでは、それだけでは意味がありません。深層学習アーキテクチャについて、VC次元を大幅に削減する特別なものはありますか？ VC次元分析に関連性がないと思われる場合は、深層学習が一般化されており、過剰適合ではないという証拠/説明を提供してください。すなわち、それは良いリコールと精度を持っていますか、それとも単に良いリコールを持っていますか？100％の再現率は、100％の精度と同様、簡単に達成できます。両方を100％に近づけることは非常に困難です。反対の例として、ディープラーニングが過剰適合であるという証拠があります。過適合モデルは、決定論的/確率的ノイズを組み込んでいるので、だまされやすいです。オーバーフィッティングの例については、次の画像を参照してください。また、テストデータの精度が高いにもかかわらず、オーバーフィットモデルの問題を理解するには、この質問に対する下位の回答を参照してください。正則化が大きなVC次元の問題を解決すると回答した人もいます。詳細については、この質問を参照してください。

86 machine-learning vc-dimension

1

ニューラルネットワークのVC次元の効率的な計算または近似

私の目標は、入力と出力で説明した次の問題を解決することです。入力：非循環有向グラフとM個のノード、N源、及び1つのシンク（M > N ≥ 1）。GGGmmmnnn111m>n≥1m>n≥1m > n \geq 1 出力：トポロジGのニューラルネットワークのVC次元（またはその近似）。GGG より詳細：各ノードはシグモイドニューロンです。トポロジは固定されていますが、エッジの重みは学習アルゴリズムによって異なる場合があります。GGG 学習アルゴリズムは固定されています（後方伝播など）。ソースノードは、入力ニューロンでのみから文字列を取ることができ、{ - 1 、1 } nは入力として。nnn{−1,1}n{−1,1}n\{-1,1\}^n シンクノードは出力ユニットです。それから、実際の値を出力し我々は切り上げることを1またはダウン- 1それは、より特定の固定のしきい値を超える場合δ離れてから0。[−1,1][−1,1][-1,1]111−1−1-1δδ\delta000 素朴なアプローチは、単にそれらを使ってネットワークを訓練しようとすることで、ますます多くのポイントを壊そうとすることです。ただし、この種のシミュレーション手法は効率的ではありません。質問この関数を計算するための効率的な方法はありますか（つまり、決定問題に変更されたときの：VC次元は入力パラメーターkよりも小さい？）？そうでない場合、硬度の結果はありますか？PP\mathsf{P}kkk この関数を計算または近似するための実用的な方法はありますか？近似値である場合、その精度について保証はありますか？ノート stats.SE についても同様の質問をしましたが、興味はありませんでした。

19 algorithms complexity-theory machine-learning neural-networks vc-dimension

1

Vapnik-Chervonenkis Dimension：ライン上の4つのポイントを長方形で粉砕できないのはなぜですか？

それで、私はBishopなどによる「機械学習入門」第2版を読んでいます。すべて。27ページで、彼らはVapnik-Chervonenkis Dimensionについて論じています。「H [仮想クラス]によって粉砕できるポイントの最大数は、HのVapnik-Chervonenkis（VC）ディメンションと呼ばれ、VC（H）と表され、Hの容量を測定します。」一方、「粉砕」は、N個のデータポイントのセットの仮説を示し、正の例と負の例を区別します。そのような例では、「HはNポイントを粉砕する」と言われています。H ∈ Hh∈Hh \in H これまでのところ、私はこれを理解していると思います。しかし、著者は次の理由で私を失います：「たとえば、ライン上の4つのポイントを長方形で粉砕することはできません。」なぜそうなるのか理解できないので、完全に理解していない概念がいくつかあるはずです。誰か私にこれを説明できますか？

8 machine-learning vc-dimension

タグ付けされた質問 「vc-dimension」

タグ付けされた質問「vc-dimension」