ディープラーニングの根本的で未解決の問題の1つは、「一般理論」が欠けていることであると何度か聞いたことがあります。なぜなら、実際にはディープラーニングがうまく機能する理由がわからないからです。ディープラーニングに関するWikipediaのページにも同様のコメントがあります。そのような発言は信頼でき、現場の状態を代表していますか?
ディープラーニングの根本的で未解決の問題の1つは、「一般理論」が欠けていることであると何度か聞いたことがあります。なぜなら、実際にはディープラーニングがうまく機能する理由がわからないからです。ディープラーニングに関するWikipediaのページにも同様のコメントがあります。そのような発言は信頼でき、現場の状態を代表していますか?
回答:
なぜディープラーニングはそんなにうまくいくのかという論文があります。。
「しかし、ディープラーニングがそれほどうまく機能する理由はまだ完全に理解されていません。手作りで分析的に完全に理解されているGOFAI(「古き良き時代のAI」)アルゴリズムとは対照的に、人工ニューラルネットワークを使用する多くのアルゴリズムは、大規模なデータセットを使用する特定のトレーニングプロトコルは優れたパフォーマンスをもたらすことが経験的にわかっているヒューリスティックレベルです。これは人間の脳の状況を思い起こさせます。特定のカリキュラムに従って子供をトレーニングすると、彼女は特定のことを学ぶことがわかりますスキル—しかし、彼女の脳がこれをどのように達成するかについての深い理解が欠けています。」
これは非常に事実です。ディープラーニングモデルは、スタックオートエンコーダやニューラルネットワークなどの浅いモデルでも完全には理解されていません。このような複雑な変数集約関数の最適化プロセスで何が起こっているのかを理解する努力があります。しかし、これは難しい仕事です。
研究者が深層学習の仕組みを発見するために使用している1つの方法は、生成モデルを使用することです。最初に、学習アルゴリズムをトレーニングし、例を生成するように依頼しながら体系的にそれをハンディキャップします。結果として生成された例を観察することにより、アルゴリズムで何が起こっているかをより重要なレベルで推測できます。これは、脳のさまざまなコンポーネントが何に使用されているかを理解するために神経科学で阻害剤を使用することに非常によく似ています。たとえば、視覚皮質がその場所にあることはわかっています。これを損傷すると失明するからです。
それはおそらく「基本理論」の意味に依存しますが、ディープラーニングには厳密な量的理論の欠如はなく、その一部は反対の主張にもかかわらず非常に一般的です。
良い例の1つは、エネルギーベースの学習方法に関する作業です。たとえば、変分推論と自由エネルギーに関するNeal&Hintonの研究を参照してください:http : //www.cs.toronto.edu/~fritz/absps/emk.pdf
また、Yann LeCunおよび同僚による「多くの学習モデルの一般的な理論的フレームワーク」としてのエネルギー最小化に関するこのガイド:http : //yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
そして、ScellierとBengioによるエネルギーベースのモデルの一般的なフレームワーク:https ://arxiv.org/pdf/1602.05179.pdf
Hinton&Sejnowskiの以前の研究もあり、特定のホップフィールドに触発されたネットワーク+教師なし学習アルゴリズムがベイズ最適推論を近似できることを分析的に示しています。https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf
ディープラーニングと理論的な神経科学を結びつける次のような多くの論文があります。これは、生物学的にもっともらしい神経構造で逆伝播の効果が達成できることを示しています。https: //arxiv.org/pdf/1411.0247.pdf
もちろん多くの未解決の問題があり、議論の余地のない単一の統一理論はありませんが、ほとんどすべての分野で同じことが言えます。
ディープラーニングはよく発達しているため、ウィキペディアの引用には疑問があります。実際、[citation needed]
Wikipediaのページにがあります。
見てくださいhttps://github.com/terryum/awesome-deep-learning-papers。リンクには100ほどの論文がありますが、ディープラーニングには「一般理論」が欠けていると思いますか
はい。深層学習は非常に複雑なモデルであるため、理解するのは困難です。しかし、それは理論がないという意味ではありません。
たぶん、lime
パッケージとその紙:「なぜ私はあなたを信用すべきなのか?」:分類子の予測を説明することはあなたを助けるでしょう。この論文は、複雑なモデル(ディープラーニングを含む)をローカルではるかに単純なモデルで近似できるはずであることを示唆しています。
ディープラーニングの理論に残る重要な問題は、そのような巨大なモデル(データポイントよりも多くのパラメーターを持つ)が、使用するデータセットに適合しない理由です。
複雑さの測度に基づく古典的な理論は、実用的なニューラルネットワークの動作を説明しません。たとえば、VC次元の推定は、空の一般化境界を与えます。私の知る限り、VCディメンションの最も厳しい(上限と下限)境界は[1]に示され、ネットワーク内の重みの数とほぼ同じです。明らかに、この最悪の場合の複雑さでは、たとえば大きなリネットがCIFARまたはMNISTで一般化する方法を説明できません。
最近、たとえばニューラルタンジェントカーネルとの関係によって、または重みのさまざまな基準測度によって、ニューラルネットワークの一般化を保証する他の試みがありました。それぞれ、これらは実際のサイズのネットワークには適用されず、他の不十分な特性を持つことがわかっています[2]。
PAC Bayesフレームワークには、非空の境界に関するいくつかの作業があります(例:[3])。ただし、これらの設定には、トレーニング済みのネットワークに関するある程度の知識が必要であるため、従来のPAC分析とはフレーバーが異なります。
他のいくつかの側面:
最適化:このような非凸問題で勾配降下法から「良い」解が得られるのはなぜですか (最近の文献にはこれに対するいくつかの回答があります)
解釈可能性:ネットワークが「考えている」ことを直感的なレベルで説明できますか?(私の地域ではありません)
(不完全)参照: