タグ付けされた質問 「vc-dimension」

7
なぜVCの次元が悪いにも関わらず、ディープラーニングが宣伝されるのですか?
Vapnik-Chervonenkis(VC)-dimensionニューラルネットワークのための式の範囲にと、最悪の場合、でエッジの数であり、ノードの数です。一般化を強力に保証するために必要なトレーニングサンプルの数は、VC次元に比例します。O (E)O(E)O(E)O (E2)O(E2)O(E^2)O (E2V2)O(E2V2)O(E^2V^2)EEEVVV つまり、成功するディープラーニングモデルの場合のように、数十億のエッジを持つネットワークの場合、トレーニングデータセットには、最良の場合は数十億、最悪の場合は数千個のトレーニングサンプルが必要です。現在、最大のトレーニングセットには約1,000億のサンプルがあります。十分なトレーニングデータがないため、深層学習モデルが一般化されている可能性は低いです。代わりに、彼らはトレーニングデータをオーバーフィットしています。これは、モデルがトレーニングデータとは異なるデータに対してうまく機能しないことを意味します。これは、機械学習にとって望ましくない特性です。 深層学習が一般化できないことを考えると、VCの次元分析によれば、なぜ深層学習の結果はそれほど誇大宣伝されているのでしょうか?一部のデータセットで単に高い精度を持っているだけでは、それだけでは意味がありません。深層学習アーキテクチャについて、VC次元を大幅に削減する特別なものはありますか? VC次元分析に関連性がないと思われる場合は、深層学習が一般化されており、過剰適合ではないという証拠/説明を提供してください。すなわち、それは良いリコールと精度を持っていますか、それとも単に良いリコールを持っていますか?100%の再現率は、100%の精度と同様、簡単に達成できます。両方を100%に近づけることは非常に困難です。 反対の例として、ディープラーニングが過剰適合であるという証拠があります。過適合モデルは、決定論的/確率的ノイズを組み込んでいるので、だまされやすいです。オーバーフィッティングの例については、次の画像を参照してください。 また、テストデータの精度が高いにもかかわらず、オーバーフィットモデルの問題を理解するには、この質問に対する下位の回答を参照してください。 正則化が大きなVC次元の問題を解決すると回答した人もいます。詳細については、この質問を参照してください。

1
ニューラルネットワークのVC次元の効率的な計算または近似
私の目標は、入力と出力で説明した次の問題を解決することです。 入力: 非循環有向グラフとM個のノード、N源、及び1つのシンク(M > N ≥ 1)。GGGmmmnnn111m>n≥1m>n≥1m > n \geq 1 出力: トポロジGのニューラルネットワークのVC次元(またはその近似)。GGG より詳細: 各ノードはシグモイドニューロンです。トポロジは固定されていますが、エッジの重みは学習アルゴリズムによって異なる場合があります。GGG 学習アルゴリズムは固定されています(後方伝播など)。 ソースノードは、入力ニューロンでのみから文字列を取ることができ、{ - 1 、1 } nは入力として。nnn{−1,1}n{−1,1}n\{-1,1\}^n シンクノードは出力ユニットです。それから、実際の値を出力し我々は切り上げることを1またはダウン- 1それは、より特定の固定のしきい値を超える場合δ離れてから0。[−1,1][−1,1][-1,1]111−1−1-1δδ\delta000 素朴なアプローチは、単にそれらを使ってネットワークを訓練しようとすることで、ますます多くのポイントを壊そうとすることです。ただし、この種のシミュレーション手法は効率的ではありません。 質問 この関数を計算するための効率的な方法はありますか(つまり、決定問題に変更されたときの:VC次元は入力パラメーターkよりも小さい?)?そうでない場合、硬度の結果はありますか?PP\mathsf{P}kkk この関数を計算または近似するための実用的な方法はありますか?近似値である場合、その精度について保証はありますか? ノート stats.SE についても同様の質問をしましたが、興味はありませんでした。

1
Vapnik-Chervonenkis Dimension:ライン上の4つのポイントを長方形で粉砕できないのはなぜですか?
それで、私はBishopなどによる「機械学習入門」第2版を読んでいます。すべて。27ページで、彼らはVapnik-Chervonenkis Dimensionについて論じています。 「H [仮想クラス]によって粉砕できるポイントの最大数は、HのVapnik-Chervonenkis(VC)ディメンションと呼ばれ、VC(H)と表され、Hの容量を測定します。」 一方、「粉砕」は、N個のデータポイントのセットの仮説を示し、正の例と負の例を区別します。そのような例では、「HはNポイントを粉砕する」と言われています。H ∈ Hh∈Hh \in H これまでのところ、私はこれを理解していると思います。しかし、著者は次の理由で私を失います: 「たとえば、ライン上の4つのポイントを長方形で粉砕することはできません。」 なぜそうなるのか理解できないので、完全に理解していない概念がいくつかあるはずです。誰か私にこれを説明できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.