人工ニューラルネットワークの背後にある理論的結果


13

Courseraの機械学習コースで人工神経回路網を取り上げたばかりですが、その背後にある理論をもっと知りたいです。私は彼らが生物学を模倣するという動機がやや不満足だと思う。

表面上、各レベルで共変量をそれらの線形結合に置き換えているように見えます。繰り返し行うことにより、非線形モデルのフィッティングが可能になります。これは疑問を投げかけます:なぜニューラルネットワークが非線形モデルを単に適合させるよりも好まれるのか。

より一般的には、人工神経回路網がベイジアンの推論フレームワークにどのように適合するかを知りたいと思います。これは、ET Jaynesの本「Probability Theory:The Logic Of Science」で詳しく説明されています。または、簡単に言えば、人工ニューラルネットワークが機能するときに機能するのはなぜですか?そして、もちろん、彼らが成功した予測をするという事実は、彼らが前述のフレームワークに従うことを意味します。

回答:


16

ETジェインズによる「未来への後方視線」からの引用です。

新しいアドホック

近年、接続された理論原理に訴えるのではなく、直感的なデバイスを発明するという正統的な習慣が、最初はいくつかの新しい科学分野が作成されたように見える方法で新しい問題に拡張されました。しかし、それらはすべて、不完全な情報からの推論に関心があります。そして、論理としての確率論が一般的であることを確立する定理があると信じていますそのような問題すべてに対処手段であることをます。3つの例を示します。

ファジィセットは、非常に明らかに、ベイジアン推論で訓練された人なら誰でも、ベイジアンの事前確率に対する粗い近似です。彼らは、彼らの実践者が自然に存在するはずの「ランダム性」という観点から確率を考え続けたが、明確に定義されなかったために作成されました。そして、確率論はそのような問題には当てはまらないと結論付けました。確率が不完全な情報を指定する一般的な方法であると認識するとすぐに、ファジーセットを導入する理由はなくなります。

同様に、人工知能(AI)の多くは、オーソドックス統計の古いものと同様に、ベイズの手法の近似であり、いくつかの制限されたクラスの問題で使用可能な不完全な情報から推論するための直感的なデバイスのコレクションです。しかし、そのクラス外の問題にそれらを適用しようとすると、不合理な結論をもたらします。繰り返しますが、その実践者は、確率が不完全な情報ではなく物理的な「ランダム性」を表していると考え続けているため、これにとらわれています。ベイジアン推論では、これらの結果はすべて、制限されたクラスの問題に制限されることなく、自動的に、そしてかなり簡単に含まれます。

素晴らしい新しい開発は、ニューラルネットです。これは、人間の脳のように適応性があり、過去のエラーから学習し、自動的に修正することができる素晴らしい新しい特性を持つアルゴリズムのシステムを意味します(すごい!なんて素晴らしい新しいアイデア!) 。実際、ニューラルネットが実際に多くのアプリケーションで非常に有用であることは驚くことではありません。ファジィセットやAIよりももっと。ただし、現在のニューラルネットには2つの実用的な欠点があります。(a)現在の入力と過去のトレーニング情報によって決定される出力を生成します。この出力は実際には推定値です手元にあるすべての情報に基づいて適切な応答が得られますが、その正確性を示すものではないため、目標にどれだけ近いか(つまり、さらにトレーニングが必要かどうか)はわかりません。(b)非線形応答が必要な場合、内部的に保存された標準の「シグモイド」非線形関数に訴えます。これは、さまざまな増幅と線形混合により、ある程度、真の非線形関数に近似させることができます。(注:強調鉱山)

ただし、(1)定義上、適応可能な手順はすべて、不完全な情報を考慮する手段であると指摘する必要がありますか。(2)ベイズの定理は、まさにすべての適応手順の母です。知識の状態を更新して新しい情報を考慮するための一般的な規則。(3)これらの問題がベイジアン用語で定式化されると、1回の計算で自動的に最良の推定値とその精度の両方が得られます。(4)非線形性が求められる場合、ベイズの定理は、別のアドホックデバイスによって近似を構築しようとする代わりに、問題によって求められる正確な非線形関数を自動的に生成します。

言い換えると、これらはまったく新しいフィールドではないと主張します。偽スタートのみ。標準的なベイジアン処方によってそのような問題をすべて定式化すると、有用な結果がすべて改善された形で自動的に得られます。人々がこれを理解するのに苦労しているように見えるのは、抽象的な数学と現実世界との関係を概念化する同じ失敗のすべての例です。確率が現実を記述するのではなく、現実に関する情報のみを認識するとすぐに、その情報から推論の問題の最適な解決策に門戸が広く開かれます。

いくつかのコメント:

  1. ポイント(a)は、80年代後半から90年代前半に始まったベイジアンニューラルネットワークの開発を無視します(ただし、ジェインズの論文は1993年に書かれたことに注意してください)。この投稿をご覧ください。また、Yarin Galの美しい博士論文を読んで、Zoubin Ghahramaniによるこの素晴らしいプレゼンテーションを見てください。

  2. ポイント(b)がどのように「欠点」になり得るかはわかりません。実際、それは、ニューラルネットが大規模なクラスの関数をうまく近似できる理由の本質です。最近成功したアーキテクチャは、内部層でシグモイドからReLUアクティベーションに移行し、「幅」よりも「深さ」を優先していることに注意してください。ReLUネットの近似定理が最近証明されました。


2
+1回答の正確な参照先がどこにあるかを正確に知ることほど満足のいくものはありません。
シコラックスは、モニカを復活させる

5
アドホックデバイスが多くの状況で機能することを実証したことを考えると、ベイジアンフレームワークに単純に適合することを示す(または反証する)ことは生産的であり、したがって、これらの非常に広く展開されているアドホックのより深い理解を得ることができます日々。これは、私が興味を持って仕事の一種である。
トムArtiom Fiodorov

1

まず、非線形関数を得るために線形関数を互いに積み重ねません。NNがそのように機能しない理由は明確です。線形関数を互いにスタックすると、線形関数が再び得られます。

連続関数獣、「悪魔の階段」を参照してくださいhttps : //en.wikipedia.org/wiki/Cantor_distribution[ab]バツ↦=b+a1ϕ1バツ++alϕlバツlは隠れ層のサイズ、つまりロジスティック関数の多項式であり、定義により代数を形成します!)。すなわち、「構築によって」、NNは非常に表現力豊かです。

なぜディープNNを使用するのですか? その理由は、上記のSW定理は、十分に大きい層サイズがあることを保証するだけであり、その結果、(願わくは連続的な)目標関数に近づくことができるからです。ただし、必要なレイヤーサイズが非常に大きいため、コンピューターはそのサイズの重み行列を処理できません。より多くの隠れ層を持つNNは、「精度」と計算可能性の間の良い妥協点のようです。単一の隠れ層のサイズを大きくするだけでなく、隠れ層を増やすとNNの表現力が「どれだけ」増大するかを示す理論的な結果はわかりませんが、ウェブ上にいくつかのリソースがあるかもしれません...

ディープNNを本当に理解できますか? 質問例:NNがこのケースを真であると予測しているのに、他の同様のケースを偽であると予測しているのはなぜですか?この顧客を他の顧客よりも正確に評価するのはなぜですか?本当にそうは思いません。それはあなたがもう合理的にうまく説明できないというモデルの複雑さを伴います...これはまだ研究の活発な分野であると聞いていますが、私はリソースを知りません...

すべてのモデルでNNが非常にユニークな理由 NNを最近使用している本当の理由は、次の2つの理由です。

  1. 彼らは自然な「ストリーミング」プロパティが付属しています。
  2. 多くの方向でそれらを最大限に活用できます。

TfTTT Pong、Chess、Goなどのゲーム多くの異なるAtariゲームを1つのモデルでます

私は、人々が最も奇妙なことをするようにNNを訓練しているが、原則として彼らは同じフレームワークを使用しただけであることを意味します:損失関数の導関数は重みです。一例はこの論文でしょう人々はRLアプローチを使用し、NNのアーキテクチャを改良して、メモリスタック(!)の操作方法を教えることにより、化学物質の複雑な言語を学習しました。勾配ブースティングでそれを試してみてください;-)彼らがそうしなければならない理由は、化学物質の言語が少なくともブラケット言語と同じくらい「学ぶのが難しい」ことです)分子を記述するために人々が使用するSMILES言語には、記号「(」および「)」が含まれているためです。理論的なコンピューターサイエンス(Chomsky階層)から、この言語を通常のオートマトンで記述することはできませんが、プッシュダウンオートマトン(スタックメモリを備えたオートマトン)が必要であることがわかります。それが、この奇妙なことをNNに教える彼らの動機だったと思います。


-1

「機能するのになぜ機能するのか?」

ここでの別の答えは、ET Jaynesを引用しています。他の機械学習アルゴリズムはアドホックですが、ニューラルネットワークはそうではないと彼は言います。その理由は、アルゴリズムがそれ自体を修正するためです。現実には、あなたが持っている場合nサンプル内のインスタンス、それらをすべて一緒に使用するよりも、次々に使用する方が良いのはなぜですか?NNアプローチが優れているという証拠はありません。実際、データが限られているほとんどの場合、NNはさらに悪い結果をもたらします。

したがって、すべての機械学習は同様にアドホックです。

機械学習は錬金術に似ています:謎めいたレシピがたくさんあるので、それを適用すると金がもらえます。そうでない場合は、別のレシピを適用してください。

少なくとも私の知っている出版物では、誰もあなたが尋ねた質問をしません。

これに加えて、統計学習理論があります。統計学習理論では、トレーニングセットのサイズが無限大になると仮定しています。私が知っている結果のほとんどは、「特定の条件下で、十分な数のトレーニングセットがあれば、この手順を使用して可能な限りほとんど良い結果を得ることができます」という形式を持っています。「十分に大きい」ものの推定は想像を超えています。

もちろん、問題は、トレーニングセットのサイズがどこにも行かないことです。もちろん、無限になります。

だから、(1)この質問をする、(2)可能なすべての機械学習アルゴリズムに関する質問に答える数学的な装置を開発する、(3)この質問に答えるのが良い時期だと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.