TCSは、「なぜニューラルネットワークがこれほどうまく機能するのか?」


52

私の博士号 純粋な数学であり、私は理論的なCSについてあまり知らない(つまり何も)ことを認めます。しかし、私は自分のキャリアのための非学術的オプションの調査を開始し、機械学習を紹介する中で、「ニューラルネットワークがうまく機能する理由を誰も理解していない」などの文句を見つけました。

私の質問は、本質的に、研究者はどのような答えを望んでいるのですか?トピックに関する簡単な検索で見つけたものは次のとおりです。

  • 単純なニューラルネットワークを実装するアルゴリズムは非常に簡単です。
  • SGDのプロセスは、統計理論と同様に数学的に十分に理解されています。
  • 普遍的な近似定理は強力で証明されています。
  • 素晴らしい最近の論文https://arxiv.org/abs/1608.08225があります。これは、モデル化しようとしている関数について強力な単純化仮定を立てることができるため、普遍的な近似は実際に実際に必要なものよりもはるかに多いという答えを本質的に提供します神経網。

前述の論文では、「GOFAIアルゴリズムは分析的に完全に理解されていますが、多くのANNアルゴリズムは発見的にしか理解されていません」と述べています。実装されたアルゴリズムの収束定理は、ニューラルネットワークについて持っていると思われる分析的理解の例であるため、この一般性のレベルでのステートメントは、既知のものと未知のもの、または「答え」とみなされるものについてあまり教えてくれません」

著者らは、結論として、与えられた多項式を近似するために必要なニューラルネットワークのサイズの有効な境界などの質問は、オープンで興味深いものであると示唆しています。私たちがニューラルネットワークを「理解している」と言うために答える必要がある数学的に特定の分析的な質問の他の例は何ですか?より純粋な数学言語で答えられる質問はありますか?

(この論文では物理学を使用しているため、表現理論の方法を具体的に考えています-そして、勝手に、それは私の研究分野であるためです。しかし、組み合わせ論/グラフ理論、代数幾何学などの分野も想像できます、実行可能なツールを提供するトポロジ。)


3
GOFAIは本当によく理解されていますか?多くのGOFAIは、典型的なNP完全問題であるSAT解法に要約されているようです。現在のSATソルバーは、現存の理論に従ってはいけませんが、実際に非常にうまく機能します。どうして?
マーティンバーガー

この分野には、実際に深層学習前および深層学習後の研究/変更/歴史があり、その分野における主要なパラダイムシフトがあります。ディープラーニングは過去10年以内に始まりました。簡単な答えは、ニューラルネットワークは任意の複雑な機能を表すことができ、複雑性は現在、ディープニューラルネットワークで非常に高度なレベルにあるということです。別の答えは、研究されている問題、そしておそらく「現実一般」でさえ、「機能から構築された」ものであり、ANNは現在非常に複雑な機能を習得することです。
vzn

ここで人々が本当に「答え」を探しているとは思わない。彼らはニューラルネットワークを使用して問題を解決しようとしていますが、問題が実際に解決されれば問題ありません。ネットワークがそのソリューションにどのように到達したかを知ることは、ここで必ずしも関心があるわけではありません。それが問題を解決する限り、それが黒/不透明な箱であるならば、誰もあまり気にしません。
-xji

回答:


38

機械学習には多くの「無料昼食なし」定理があり、おおむね他のすべてのアルゴリズムよりも一様に優れたパフォーマンスを発揮するマスター学習アルゴリズムは存在できないと述べています(たとえば、http://www.no-free- lunch.org/)。案の定、ディープラーニングはそれほど困難なく「壊れる」ことができます:http : //www.evolvingai.org/fooling

したがって、証明できるほど効果的であるためには、学習者は帰納的バイアス、つまりデータに関するいくつかの事前の仮定を必要とします。帰納的バイアスの例には、データの希薄性、低次元性、分布がうまく分解する、大きなマージンがあるなどの仮定が含まれます。成功する学習アルゴリズムの多くは、これらの仮定を利用して一般化保証を証明します。たとえば、(線形)SVMは、データが空間で十分に分離されている場合に適切に機能します。それ以外の場合はそれほどではありません。

ディープラーニングの主な課題は、その誘導バイアスが何であるかを理解することだと思います。つまり、型の定理を証明することです。トレーニングデータがこれらの仮定を満たす場合、一般化のパフォーマンスについて何かを保証できます。(それ以外の場合、すべてのベットはオフです。)

更新(2019年9月):投稿された回答から2年間、さまざまなDLおよび関連アルゴリズムに暗黙的に含まれる誘導バイアスの理解が大きく進歩しました。主要な洞察の1つは、使用されている実際の最適化アルゴリズムが重要であるということです。なぜなら、大規模なANNなどの非常に過剰にパラメーター化されたシステムが学習できた理由を均一な収束が説明できないためです。さまざまな最適化手法(SGDなど)は、さまざまな基準(など)に関して暗黙的に正則化されていることがます。他の例などについては、この優れた講義をご覧くださいhttps : //www.youtube.com/watch?v=zK84N6ST9sM2


敵対的な例は、ディープニューラルネットワークに固有のものではないことに注意してください。線形およびロジスティック回帰用に簡単に構築することもできます。例:arxiv.org/pdf/1412.6572.pdf
Hoyt

1
はい。ただし、線形およびロジスティック回帰は理論的にはるかによく理解されています。
アリーエ

2
おそらく、また、NFL定理があることに注意すべき大きな役割果たしていない可能性があります NFLはクラスに関係している間ので、実用的な機械学習でのすべての機能を、現実世界の問題は通常、例えばに拘束されているような機能や、より具体的な機能をスムーズにLinとTegmarkによる論文で検討されたもの。我々がに興味を持っていることをすべての学習の問題をカバーする誘導バイアスを見つけることは可能かもしれません。
Lenarホイト

4
それから、まず、「私たちが興味を持っているすべての学習問題」のこの空間を形式化する必要があります。
アーリー

1
特にAIの安全性に関しては、間違いなく価値があります。機械学習アルゴリズムが学習すべきものを確実に指定できる必要があります。
レナーホイト

26

ニューラルネットワークの理解には、最適化の硬度と一般化のパフォーマンスという2つの主要なギャップがあります。

ニューラルネットワークのトレーニングには、高次元で非常に非凸の最適化問題を解く必要があります。現在のトレーニングアルゴリズムはすべて勾配降下法に基づいており、臨界点(ローカルミニマムまたはサドル)への収束のみを保証します。実際、Anandkumar&Ge 2016は最近、極小値でもNP困難であることを証明しました。これは、(P!= NPと仮定すると)エラーサーフェスに「悪い」、逃げにくい、addle点が存在することを意味します。
しかし、これらのトレーニングアルゴリズムは多くの実際的な問題に対して経験的に効果的であり、その理由はわかりません。Choromanskaらなどの
理論的な論文があります。2016年および川口2016ある仮定の下では、ローカルミニマムは本質的にグローバルミニマムと同じくらい良いことを証明しますが、それらの仮定はやや非現実的であり、悪いbad点の問題に対処していません。

私たちの理解における他の主なギャップは、一般化パフォーマンスです:トレーニング中に見られない新しい例でモデルがどれだけうまく機能するか?無限の数のトレーニング例(定常分布からサンプリングされたiid)の制限では、トレーニングエラーが新規の例で予想されるエラーに収束することは簡単にわかります(ただし、グローバル最適にトレーニングできる場合)。無限のトレーニングサンプルはありません。トレーニングエラーと一般化エラーの違いを達成するために必要なサンプルの数に興味があります。統計学習理論はこれらの一般化の限界を研究します。
経験的に、大規模な最新のニューラルネットワークのトレーニングには多数のトレーニング例(流行語が好きな場合はビッグデータ)が必要ですが、実際には実行不可能なほど大きなものではありません。しかし、統計学習理論から最もよく知られている範囲(たとえば、Gao&Zhou 2014)を適用すると、通常、これらの実行不可能な膨大な数が得られます。したがって、少なくとも実際的な問題については、これらの境界は厳密ではありません。
理由の1つは、これらの境界がデータ生成分布についてほとんど仮定しない傾向があるため、敵環境に対する最悪のパフォーマンスを反映する一方で、「自然」環境はより「学習可能」になる傾向があることです。
分布に依存する一般化境界を書くことは可能ですが、「自然な」環境で分布を形式的に特徴付ける方法はわかりません。アルゴリズム情報理論などのアプローチは、まだ不十分です。
したがって、なぜオーバーフィットせずにニューラルネットワークをトレーニングできるのかはまだわかりません。

さらに、これらの2つの主要な問題はまだ十分に理解されていない方法で関連しているように見えることに注意してください: neural点に収束するまでニューラルネットワークを訓練することはありません。そうすると、通常は過剰適合を引き起こします。代わりに、(一般化エラーのプロキシである)保留された検証セットのエラーが改善しなくなると、トレーニングを停止します。これは「早期停止」として知られています。
したがって、ある意味で、グローバル最適化の一般化エラーの境界に関するこの理論的研究はすべて、まったく無関係かもしれません。多くの「準最適」ソリューションよりも斬新な例。
最適化の硬さはニューラルネットワークの欠陥ではなく、逆に、ニューラルネットワークは最適化が難しいため正確に機能する可能性があります。
これらの観察結果はすべて経験的であり、それらを説明する良い理論はありません。また、ニューラルネットワークのハイパーパラメーター(隠された層の幅と深さ、学習率、アーキテクチャの詳細など)を設定する方法を説明する理論もありません。実践者は、経験と多くの試行錯誤に磨かれた直感を使用して効果的な値を導き出しますが、理論により、より体系的な方法でニューラルネットワークを設計することができます。


11

@Aryehの発言に追加するこの質問の別の見解:学習の他の多くのモデルでは、仮説空間の「形状」を知っています。SVMは、これの最良の例です。つまり、あなたが見つけているのは、(おそらく高次元の)ヒルベルト空間の線形セパレーターです。

一般的なニューラルネットワークの場合、そのような明確な説明や近似はありません。そして、そのような記述は、ニューラルネットワークがデータで正確に何を見つけているかを理解するために重要です。


仮説空間の「形状」とは何と呼びますか?:)私たちの定理2.1(ページ3)はあなたの質問のいくつかに答えていますか:eccc.weizmann.ac.il/report/2017/098?:D
Anirbit

4

ディープニューラルネットワークの成功を説明するために、情報ボトルネックの原理が提案されています。

Quantaマガジンからの引用です

先月、ベルリンで開催された会議講演のYouTubeビデオは、人工知能の研究者の間で広く共有されており、可能な答えを提供しました。講演では、エルサレムのヘブライ大学のコンピューター科学者および神経科学者であるNaftali Tishbyが、深層学習の仕組みを説明する新しい理論を支持する証拠を提示しました。ティシュビーは、ディープニューラルネットワークは「情報ボトルネック」と呼ばれる手順に従って学習すると主張しています。ボトルネックを介して情報を収集し、一般的な概念に最も関連する機能のみを保持します。

参照:

1- 深層学習と情報ボトルネックの原則、ナフタリ・ティシュビーとノガ・ザスラフスキー

2- 情報、Ravid Shwartz-Ziv、Naftali Tishbyを介してディープニューラルネットワークのブラックボックスを開く

3- カンファレンストークビデオ: Naftali Tishbyによる深層学習の情報理論


1

ディープニューラルネットワークをトレーニングするための効率的なアルゴリズムをまだ発見する必要があると思います。はい、SGDは実際にはうまく機能しますが、グローバルミニマムに収束することを保証するより良いアルゴリズムを見つけることは非常に良いことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.