深層学習について、VCディメンションは何を教えてくれますか?


15

基本的な機械学習では、次の「経験則」を学びます。

a)データのサイズは、仮説セットのVCディメンションのサイズの少なくとも10倍にする必要があります。

b)N個の接続を持つニューラルネットワークのVC次元は約Nです。

ディープラーニングニューラルネットワークが数百万のユニットを言うとき、これは、たとえば数十億のデータポイントが必要であることを意味しますか?これに光を当ててください。


ディープニューラルネットワークには、数百万個のユニットはありません。ただし、何百万もの接続があります。これらのネットワークでは、主に正規化された性質(ドロップアウトのあるCNNなど)により、2番目の経験則は当てはまらないと思います。
pir

重要なのは、VCの限界は無限ではないということです。有限である場合、PAC理論は学習が実行可能であることを示しています。データ量。これは別の質問です。
ヴラディスラフドブガレス

回答:


4

あなたが話している経験則は、ニューラルネットワークには適用できません。

ニューラルネットワークには、いくつかの基本的なパラメーター、つまりその重みとバイアスがあります。重みの数はネットワークレイヤー間の接続の数に依存し、バイアスの数はニューロンの数に依存します。

必要なデータのサイズは大きく依存します-

  1. 使用されるニューラルネットワークのタイプ
  2. ネットで使用される正則化手法
  3. ネットのトレーニングで使用される学習率。

つまり、モデルが過適合であるかどうかを確認するより適切で確実な方法は、検証エラーがトレーニングエラーに近いかどうかを確認することです。はいの場合、モデルは正常に機能しています。いいえの場合、モデルは過剰適合である可能性が高いため、モデルのサイズを小さくするか、正則化手法を導入する必要があります。


モデルが過適合であるかどうかを理解する最善の方法は、検証エラーがトレーニングエラーに近いかどうかを確認することであると言うとき、冗談を言う必要があります。
nbro

5
@nbro、検証エラーをチェックする適切なホールドアウトセットがある場合、それは通常非常にゆるいVC境界を通過するよりも、特定の訓練されたネットワークの過剰適合のはるかに信頼できる尺度です。
Dougal

@Dougal答えで言ったことを繰り返しているだけです。
-nbro

2
私の答えは@nbroではありません。ただし、検証セットを指定すると、Hoeffdingなどを使用して真の一般化エラーの些細な高確率限界を得ることができますが、VC境界を通過すると、特定のデータセットとネットワークに固有ではない多くの緩い上限が含まれます手。
Dougal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.