なぜVCの次元が悪いにも関わらず、ディープラーニングが宣伝されるのですか?


86

Vapnik-Chervonenkis(VC)-dimensionニューラルネットワークのための式の範囲にと、最悪の場合、でエッジの数であり、ノードの数です。一般化を強力に保証するために必要なトレーニングサンプルの数は、VC次元に比例します。OEOE2OE2V2EV

つまり、成功するディープラーニングモデルの場合のように、数十億のエッジを持つネットワークの場合、トレーニングデータセットには、最良の場合は数十億、最悪の場合は数千個のトレーニングサンプルが必要です。現在、最大のトレーニングセットには約1,000億のサンプルがあります。十分なトレーニングデータがないため、深層学習モデルが一般化されている可能性は低いです。代わりに、彼らはトレーニングデータをオーバーフィットしています。これは、モデルがトレーニングデータとは異なるデータに対してうまく機能しないことを意味します。これは、機械学習にとって望ましくない特性です。

深層学習が一般化できないことを考えると、VCの次元分析によれば、なぜ深層学習の結果はそれほど誇大宣伝されているのでしょうか?一部のデータセットで単に高い精度を持っているだけでは、それだけでは意味がありません。深層学習アーキテクチャについて、VC次元を大幅に削減する特別なものはありますか?

VC次元分析に関連性がないと思われる場合は、深層学習が一般化されており、過剰適合ではないという証拠/説明を提供してください。すなわち、それは良いリコールと精度を持っていますか、それとも単に良いリコールを持っていますか?100%の再現率は、100%の精度と同様、簡単に達成できます。両方を100%に近づけることは非常に困難です。

反対の例として、ディープラーニングが過剰適合であるという証拠があります。過適合モデルは、決定論的/確率的ノイズを組み込んでいるので、だまされやすいです。オーバーフィッティングの例については、次の画像を参照してください。

アンダーフィット、フィット、オーバーフィットの例。

また、テストデータの精度が高いにもかかわらず、オーバーフィットモデルの問題を理解するには、この質問に対する下位の回答を参照してください。

正則化が大きなVC次元の問題解決すると回答した人もいます。詳細については、この質問を参照してください。


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
DW

7
なぜ「誇張された」何かが良いのかという疑問はないと思います。答えは「人だから」です。マーケティングを含む多くの理由により、人々は物事に興味を持ちます。
luk32

ディープラーニングは実際に機能します。過剰適合の可能性があります。それは完全に不当かもしれません。それは不思議な神から宇宙の秘密を学んでいるかもしれません。しかし、誇大広告は、突然コードに30行を記述し、カメラに署名をスキャンし、保存された署名と照合して銀行取引を検証することを教えることができる実践者から来ています。または、写真で未知の人にタグを付けます。等あなたは「本当ならif辱ではない」という言葉を聞いたことがあるでしょうか?うまくいけば、誇大広告ではありません。それが動作しない多くの問題と過度の人気の誇大宣伝があります。しかし、実際のアプリケーションでは機能します。
ステラバイダーマン

@StellaBidermanは、標準の機械学習技術に基づいたツールの使いやすさが優れており、すべてです。しかし、関心は、おそらく人間の能力に匹敵するDNNの想定される学習能力に関係しているようです。これは、モデルのVC分析を考えると、誇張されているように見えます。このような高いVCディメンションは、モデルが一般化されず、代わりにデータセットを記憶しているため、モデルが非常に脆くなることを意味します。すべての敵対的なサンプルペーパーは、この点を実証するように見えます。
yters

@gerrit編集が本当に役立ったかどうかはわかりません。VCの次元が何であるかを知るよりも、VCの次元を多くの人が知っているに違いない。
デビッドリチャービー

回答:


75

「マップと地形が一致しない場合は、地形を信頼してください。」

ディープラーニングが機能するのと同じように機能する理由は実際には理解されていませんが、VC次元などの学習理論の古い概念はあまり役に立たないようです。

問題は熱く議論されています。例:

敵対的な例の問題に関して、問題は次の場所で発見されました。

  • C.セゲディ、W。リュー、Y。ジア、P。セルマネ、S。リード、D。アンゲロフ、D。エルハン、V。ヴァンホッケ、A。ラビノビッチ、畳み込みにより深く進む

以下でさらに開発されています。

多くの後続作業があります。


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
DW

「次の仕事がたくさんある」と言うとき、あなたは最後の2014年の論文に言及していますか?あなたが言及する最初の2つの論文はかなり最近のものです。参照している論文で更新してもらえますか?
VF1

2
「地図と地形が一致しない場合、地形を信頼する」ための強力な+1。数学がそうすべきかどうかに関係なく、モデルは実際には非常にうまく機能します。科学的なPOVから、これは常に起こり、何かが問題をより興味深いものにしている場合。RazborovとRudichのNatural Proofsに関する研究を読んだ人は誰もいませんでした。彼らは行って、代数幾何学を使って複雑性理論を行うことができるかもしれないことを理解しました。科学の観点から見ると、私たちの理解を超えた問題はより良く、悪くはありません。
ステラバイダーマン

65

「VC次元分析によると、ディープラーニングが一般化できないことを考慮して[...]」

いいえ、VCの寸法解析ではそうではありません。VC次元解析は、一般化が保証される十分な条件を提供します。しかし、その逆は必ずしもそうではありません。これらの条件を満たさなくても、MLメソッドは一般化される可能性があります。

別の言い方をすれば、ディープラーニングは、VC次元分析が期待するよりも優れている(VC分析の「予測」よりも優れている)。これは、深層学習の欠点ではなく、VC次元分析の欠点です。ディープラーニングに欠陥があることを意味するものではありません。むしろ、ディープラーニングが機能する理由がわからないことを意味します。VC分析では有用な洞察を提供できません。

高いVCディメンションは、ディープラーニングがだまされる可能性があることを意味するものではありません。VCの高次元は、実際の状況でだまされる可能性があるかどうかについては何も保証しません。VCディメンションは、一方向の最悪の場合の限界を提供します。これらの条件を満たせば良いことが起こりますが、これらの条件を満たさなければ、何が起こるかわかりません(とにかく、良いことはまだ起こります自然は、最悪の場合よりも優れた動作をします; VC分析では、良いこと起こらない / 起こらないとは約束されていません)。

モデル空間のVC次元は大きい可能性があります(可能な限り非常に複雑なパターンが含まれます)が、性質は単純なパターンで説明され、MLアルゴリズムは自然に存在する単純なパターンを学習します(たとえば、正則化のため)- -この場合、VC次元は高くなりますが、モデルは一般化されます(自然に存在する特定のパターンに対して)。

とはいえ、ディープラーニング敵対的な例にだまされる可能性があるという証拠が増えています。ただし、推論の連鎖には注意してください。あなたが描いている結論は、あなたが始めた前提からは従いません。


6
VCの高次元は、一般化するのが難しいことを意味します(何らかの意味で、少なくとも任意の分布を扱う場合)。下限は正確VC寸法に比べて小さいサンプルの数のために、そのようなそれに対する任意のアルゴリズムその分布が存在することを意味する汎化誤差(高い確率で)高い一般化エラーが発生します。Ωdn
アリエル

5
「高VC次元では何も保証されません」の場合は-1 これは真実ではありません。VC次元が高いということは、PAC学習のサンプルの複雑さの下限を意味します。適切な答えは、最悪の場合と「実際の」分布とを対応させる必要があります。
サショニコロフ

1
@SashoNikolov、良い点-ありがとう!編集済み。
DW

この投稿は低品質のレビューでした。内容、長さ、投票、品質を考えると、これはばかげています。これをここで指摘していますが、何かが本当に間違っているので、メタが必要な場合があります。
邪悪な

23

業界の人々は、VCの次元、フーリガンを無視しています

もっと深刻なことに、PACモデルは(少なくとも私の意見では)学習を考える上でエレガントな方法であり、興味深い概念や質問(VCの次元やサンプルの複雑さへの接続など)を生み出すほど複雑です。 、実際の生活の状況とはほとんど関係ありません。

PACモデルでは、任意の分布を処理する必要があるため、アルゴリズムは敵対的分布を処理する必要があることを忘れないでください。現実の世界でいくつかの現象を学ぼうとすると、誰もあなたの結果を台無しにする「敵対的データ」を与えないので、概念クラスをPACで学習できるように要求するのは強すぎるかもしれません。特定の分布クラスに対して、VCディメンションとは無関係に一般化エラーをバインドできる場合があります。これは、VCディメンションとは無関係に定式化されるマージン境界の場合です。高い経験的マージンを保証できる場合、一般化エラーが少ないことを約束できます(もちろん、すべての分布で発生するわけではありません。たとえば、平面上の2つの近接点を反対のタグで取り、分布に焦点を合わせます)。

PACモデルとVCディメンションを別にすると、誇大広告は機能しているように見え、以前は不可能だったタスクに成功していることに起因すると思います(頭に浮かぶ最新の成果の1つはAlphaGoです)。私はニューラルネットについてほとんど知らないので、より多くの経験を積んだ人が参加することを望んでいますが、私の知る限り、まだ十分な保証はありません(明らかにPACモデルとは異なります)。おそらく、正しい仮定の下で、ニューラルネットの成功を正式に正当化することができます(ニューラルネットの正式な取り扱いと「ディープラーニング」に関連する作業があると思います。 。


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
DW

15

ディープラーニングが一般化できないことを考えると、

どこから取ったのかわかりません。経験的に、一般化は、目に見えないデータのスコア(精度など)と見なされます。

なぜCNNが使用されるのかという答えは簡単です。CNN他の何よりも優れた機能を発揮します。例については、ImageNet 2012を参照してください。

  • CNN:15.315%(これは初期の例でした。CNNの方がはるかに優れています。約4%のトップ5エラー)
  • 最高の非CNN:26.172%のトップ5エラー(ソース -CNNを使用しない私の知識のテクニックまでは、25%のトップ5エラーを下回らなかった)

より優れた分類器を作成すると、人々はそれに移行します。

更新:ディープラーニングのこの証拠のように、機械学習全般が簡単にだまされているという公表された証拠を提供するすべての人に答えを授与します。

これはそうではありません。単純なデータセットで非常に単純な分類子を作成できます。それをだますことはできません(「簡単」が何を意味するかは関係ありません)、それはまた面白くありません。


3
低いエラーは一般化を意味しません。これは必要条件ですが、十分条件ではありません。
イターズ

3
@yters汎化を定義してください。
マーティントーマ

5
@yters、このコメントは、機械学習についてあまり読んでいないと思います。マーティンは見えないデータの正確さを言った。あなたはトレーニングデータの正確さについて話している。あなたは一般化が何であるかについて基本的に正しいですが、ここの他の誰もがそれを理解していることを理解してください
ケンウィリアムズ

1
@yters Ken(および私自身を含むこのサイトの多くの人々)がこれを知っていると確信しています。ただし、テストセットがデータセットを表していない場合、一般化についての説明はできません。これを念頭に置く価値はありますが、この質問に対してこれがどのように役立つかわかりません。テストセットが実稼働時のデータを表していることを仮定/確認する必要があります。実際、トレーニングサンプルが分布を表していない場合、任意の分類器を任意の不良にすることができることを示すのは非常に簡単です。
マーティントーマ

2
それは明らかです。モデルが間違ったデータで検証されてトレーニングされている場合、モデルが適切に一般化されることは期待できません。より良いモデルではなく、より良いデータが必要です。
エムレ

9

答えは「正規化」です。正規化では重みが一般的ではないことが要求されるため、単純なVC次元の式はここでは実際には適用されません。正則化後に許容できる損失があるのは、ごくわずかな(無限小の)重みの組み合わせのみです。結果として、真の次元は桁違いに小さいため、一般化はトレーニングセットで発生する可能性があります。現実の結果から、一般に過適合は起きていないことがわかります。


2
実生活の結果が深層学習の一般化を示すという繰り返しの主張を見てきました。一般化を示す結果は正確に何ですか?これまで見てきたことは、DLが特定のデータセットで低いエラー率を達成することだけであり、それ自体はDLが一般化することを意味しません。
イターズ

3
トレーニングされていないデータに対して良い結果(「良い」=他のMLメソッドよりも良い)を示します。他にどのように一般化を測定したいかわからない。
-lvilnis

3

ディープラーニングを理解するには一般化の再考が必要です。に

汎化を再考するには、古い考え方を再検討する必要があります。統計力学アプローチと複雑な学習行動Charles H. MartinとMichael W. Mahoney

参照:https : //arxiv.org/pdf/1710.09553.pdf

基本的に、基本的なアプローチと採用される統計的制限が非現実的であるため、VCの境界が緩すぎると主張します。

より良いアプローチは、統計力学にあります。統計力学では、データに依存する関数のクラスを考慮し、熱力学の制限(大きな数の制限だけでなく)を取ります。

さらに、深いニーズの自然な不連続性が学習曲線の相転移にどのようにつながるかについても指摘しています。これは、Googleの論文(上記)で観察されていると思われます

制限については、本書のセクション4.2を参照してください

「明らかに、サンプルサイズmを修正し、[関数クラスのサイズ] N→∞にする[またはその逆、Nを修正する、m→∞にする]場合、非自明な結果は期待できません。 N]は大きくなっていますが、サンプルサイズは固定されています。したがって、[統計力学]では、通常、α= m / Nが固定定数であるm、N→∞の場合を考慮します。

つまり、ディープネットにデータ(m)を追加することはほとんどありません。データからより詳細な機能/情報をキャプチャできることがわかっているため、常にネットのサイズ(N)も大きくします。代わりに、実際に紙で主張していることを行います--m / Nの比率を固定して(mを固定してNを増加させるのではなく)大きなサイズの制限を取ります。

これらの結果は、Statistical Mechanics of Learningでよく知られています。分析はより複雑ですが、結果は、深層学習の多くの現象を説明するはるかに豊富な構造につながります。

また、特に、統計からの多くの境界が自明になるか、非滑らかな確率分布に適用されないか、変数が離散値をとる場合が知られています。ニューラルネットワークでは、不連続性(活性化関数内)により非自明な動作が発生し、相転移(熱力学的限界で発生)につながります。

私たちが書いた論文は、重要なアイデアをコンピューターサイエンスの聴衆に説明しようとしています。

Vapnik自身は、彼の理論がニューラルネットワークに実際には適用できないことを認識していました...

「[VC次元]の多層ネットワークへの拡張は、[多くの]困難に直面しています。既存の学習アルゴリズムは、ネットワークによって実装可能な機能のセット全体で経験的リスクを最小化するとは見なせません...おそらく...検索は[これらの]関数のサブセットに限定されます...このセットの容量は、セット全体の容量よりもはるかに低くなる可能性があります... [そして]観測数によって変化する可能性があります。これには、機能の「アクティブな」サブセットを持つ
非定容量の概念を考慮する理論が必要な場合があります」Vapnik、Levin、およびLeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

VC理論で扱うのは簡単ではありませんが、これはstat mechにとっては問題ではありません。(これは将来の論文のトピックになります)


これはおもしろそうに聞こえますが、私はあなたの議論に従っているかどうかわかりません。統計力学を理解する必要のない自己完結的な方法で、最初の文、つまり基本的なアプローチ/統計的限界が非現実的である方法について詳しく説明していただけますか?VCの境界はどのような仮定を立てており、なぜ非現実的ですか?おそらく、答えを編集してその情報を含めることができますか?
DW

VapnikとLeCun(1994)によるこの問題を議論する元の作品への参照を追加しました。
チャールズマーティン

そして、いくつかの説明を追加しました。
チャールズマーティン

1

上記の回答で、引用されているVC次元の式は1層ニューラルネットワークのみのものであると指摘した人はいないようです。私の推測では、VCの次元は、層の数Lが増加するにつれて実際に指数関数的に増加します。私の推論は、活性化関数が多項式のものに置き換えられているディープニューラルネットワークの検討に基づいています。次に、層が増加するにつれて、合成された多項式の次数が指数関数的に増加します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.