人工ニューラルネットワークとは何ですか？

15

ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ（「ニューラルネットワーク」のようなアーキテクチャ）を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。

それから、不思議に思う：人工ニューラルネットワークの定義は何ですか？そのトポロジーはすべてをカバーしているように見えます。

例：

最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。

また、線形モデル（特別なロジスティック回帰）と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。

フーリエ級数とテイラー級数？ANN。SVM？ANN。ガウス過程？ANN（無限の非表示ユニットを持つ単一の非表示レイヤー）。

そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。

しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド（勾配降下逆伝搬など）で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。

すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか？

— ファイアバグ
ソース

Deep Neural Decision Treesに関するその論文は、かなり先のことです。通常、アクティベーション関数は外積ではなく実数値の関数です。したがって、彼らは私たちが通常考えるANNについて実際に議論しているのではなく、広く使用されていないか受け入れられていない数学的一般化です。ANNは、決定木とは異なって表示するには、私は単に木がノンパラメトリックている間、すべてのANNは、（有限のパラメータ空間を持っている）パラメトリックであることを指摘します（潜在的に無限のパラメータ空間を持っています。）

— olooney

@olooney Kronecker製品はアクティベーション関数ではなく、前のレイヤーの出力に対する操作（畳み込み、またはアクティベーションに対して定義するその他の操作）にすぎません。DNDTは任意の決定ツリーを表すことができ、すべてのDNDTは決定ツリーで表すことができます。

— Firebug

1

@olooneyはアクティベーション関数の定義からすると、Softmaxはアクティベーション関数ではありません。

— ファイアバグ

2

私はこの質問の動機を理解しているとは完全にはわかりません。ANNの緩い定義は、ニューロン（つまり、活性化関数）を使用して入力/出力を処理する有向グラフィカルモデルであり、ほとんどの場合、勾配降下を使用してトレーニングします。「すべてをANNとして表現できる」と言うとき、前述の他のモデルとANNの間に正確なマッピングがあるかどうかを具体的に尋ねていますか？問題は、最適化に合わせて高度に修正されたトレーニングルーチンを考え出す必要があることです。

— アレックスR.

1

@Sycoraxもそうだ、彼とヒントンはそれをほのめかした。他のキャンプの回答者に信頼できる情報源を提供する機会を提供したいです:)

— Firebug

6

JürgenSchmidhuber、「ニューラルネットワークのディープラーニング：概要」は、ニューラルネットワークとディープラーニングの主要な概念の歴史をたどります。彼の見解では、ニューラルネットワークは、各ノードが何らかの計算単位を表す有向グラフとして特徴付けられる、本質的にすべてのモデルを包含するように思われます。Schmidhuberは著名なニューラルネットワークの研究者であり、Sepp HochreiterとともにLSTMネットワークに関するオリジナルの論文を執筆しました。

学習システムのどの変更可能なコンポーネントが、その成功または失敗の原因になりますか？それらの変更はパフォーマンスを改善しますか？これは、基本的なクレジット割り当て問題と呼ばれています（ミンスキー、1963）。さまざまな理論的な意味で時間的に最適な普遍的な問題解決者向けの一般的なクレジット割り当て方法があります（6.8）。ただし、今回の調査では、人工神経回路網（NN）のディープラーニング（DL）のより狭いが、現在は商業的に重要なサブフィールドに焦点を当てます。

標準ニューラルネットワーク（NN）は、それぞれが実数値のアクティベーションのシーケンスを生成するニューロンと呼ばれる多くの単純な接続されたプロセッサで構成されています。入力ニューロンは環境を感知するセンサーを介してアクティブになり、他のニューロンは以前アクティブだったニューロンからの重み付き接続を介してアクティブになります（詳細はセクション2を参照）。一部のニューロンは、アクションをトリガーすることで環境に影響を与える場合があります。学習またはクレジットの割り当てとは、車の運転など、NNが望ましい動作を示す重みを見つけることです。問題とニューロンの接続方法に応じて、そのような動作には、計算ステージの長い因果連鎖が必要になる場合があります（セクション3）。ディープラーニングとは、このような多くの段階でクレジットを正確に割り当てることです。

そのような段階がほとんどない浅いNNのようなモデルは、数世紀ではないとしても何十年もの間存在していました（セクション5.1）。ニューロンのいくつかの連続した非線形層を持つモデルは、少なくとも1960年代（5.3節）および1970年代（5.5節）に遡ります。バックプロパゲーション（BP）と呼ばれる任意の深さの離散微分可能ネットワークにおける教師ベースの教師あり学習（SL）の効率的な勾配降下法は、1960年代および1970年代に開発され、1981年にNNに適用されました（5.5）。ただし、多くの層を含むBPに基づく深層NNのトレーニングは、1980年代後半（5.6節）までに実際には困難であることがわかり、1990年代前半（5.9節）までに明確な研究対象になりました。DLは、Undervised Learning（UL）、たとえばSecの助けを借りてある程度実用的になりました。5.10（1991）、Sec。5.15（2006）。1990年代と2000年代には、純粋に監視されたDLの多くの改善も見られました（5節）。新しいミレニアムでは、主に多くの重要なアプリケーションでカーネルマシンなどの代替機械学習方法（Vapnik、1995、Scholkopf et al。、1998）を上回ることにより、ディープNNが最終的に広範な注目を集めました。実際、2009年以降、監督下のディープNNは多くの公式国際パターン認識コンテスト（例、5.17、5.19、5.21、5.22）で優勝し、限られた領域で最初の超人的視覚パターン認識結果を達成しました（5.19、2011年）。ディープNNは、監督教師がいない強化学習（RL）のより一般的な分野にも関連するようになりました（セクション6）。主に、多数の重要なアプリケーションで、カーネルマシンなどの代替の機械学習方法より優れています（Vapnik、1995; Scholkopf et al。、1998）。実際、2009年以降、監督下のディープNNは多くの公式国際パターン認識コンテスト（例、5.17、5.19、5.21、5.22）で優勝し、限られた領域で最初の超人的視覚パターン認識結果を達成しました（5.19、2011年）。ディープNNは、監督教師がいない強化学習（RL）のより一般的な分野にも関連するようになりました（セクション6）。主に、多数の重要なアプリケーションで、カーネルマシンなどの代替の機械学習方法より優れています（Vapnik、1995; Scholkopf et al。、1998）。実際、2009年以降、監督下のディープNNは多くの公式国際パターン認識コンテスト（例、5.17、5.19、5.21、5.22）で優勝し、限られた領域で最初の超人的視覚パターン認識結果を達成しました（5.19、2011年）。ディープNNは、監督教師がいない強化学習（RL）のより一般的な分野にも関連するようになりました（セクション6）。限られた領域で初めて超人的な視覚パターン認識結果を達成します（2011年5月19日）。ディープNNは、監督教師がいない強化学習（RL）のより一般的な分野にも関連するようになりました（セクション6）。限られた領域で初めて超人的な視覚パターン認識結果を達成します（2011年5月19日）。ディープNNは、監督教師がいない強化学習（RL）のより一般的な分野にも関連するようになりました（セクション6）。

一方、機械学習戦略のために相互に排他的なバケットの分類法を構築しようとすることが必ずしも有益であるかどうかはわかりません。モデルをニューラルネットワークと見なすことができる視点があると言えると思います。パースペクティブが必ずしもすべてのコンテキストで最良または有用であるとは思いません。たとえば、ランダムフォレストと勾配ブーストツリーを、それらの区別を抽象化して「ニューラルネットワークツリー」と呼ぶのではなく、「ツリーアンサンブル」と呼ぶつもりです。さらに、SchmidhuberはNNをカーネルマシンと区別しています-カーネルマシンはNNに接続しているにもかかわらず-「新しいミレニアムでは、ディープNNはようやく広く注目を集めました。主に、カーネルマシンなどの代替の機械学習方法よりも優れたパフォーマンスを発揮します。」

— シコラックス、モニカを復職させる
ソース

基本的に、今日の機械学習と統計で知られているすべてのモデルとヒューリスティックは、シュミットフーバーによってANNと見なされます。

— ファイアバグ

1

実用的な観点からそれはわかりますが、厳密に言えば、ほとんどすべてのモデルがANNであるという事実は変わりません（そうではない単一のモデルは考えられません）。

— ファイアバグ

2

@Firebug ANNのこの定義と同じになるように、「学習環境」でトレーニングまたは配置された回帰または（単純なk-meansなど）クラスタリング問題をどのように再フォーマットしますか？

— セクストゥスエンピリカス

1

@Firebug PCAが特定のオートエンコーダーと同等であることが示されるという事実が、PCAを「ニューラルネットワーク」にする方法がわかりません。標準のPCAでは、勾配降下法も使用していません。

— アメーバは、モニカを復活させる

1

@Firebug「NN」を「接続された計算ノード」として定義すると、計算はすべてNNになります。それが役に立つかどうかはわかりませんが、大丈夫です。

— アメーバは、モニカを復活させる

7

ANNの基本的な定義が必要な場合、それは有向グラフモデルであり、入力および出力はアクティベーション関数を介して各ノードで処理され、ほとんどの時間勾配降下法がそれをトレーニングするために使用されると言うかもしれません。質問は本当になります：そこにあるモデルはグラフィカルモデルとして表現できますか？

私は専門家ではありませんが、理論的にはいくつかのANNがチューリング完全であることを示すことができると考えています。つまり、可能な限りの計算セットを実行できるはずです（可能な限り無限のリソースを使用してください）。

また、あなたの質問を次のように解釈します。

どのモデルでも、ANNモデルを一緒に平手打ちして、そのモデルを可能な限り近く、妥当な時間でエミュレートできますか？

バニラニューラルネットワークは、ヘビサイドステップ活性化を使用して、決定木をエミュレートできます。問題は、そのようなユニットのアクティベーションの勾配がゼロであるため、通常の勾配降下が機能しないことです。「問題ない、勾配降下法の修正された形式を使用すればよい」と言うかもしれません。しかし、それでもまだ十分ではありません。より良い例として、XGBOOSTのようなものを取り上げてください。これは、単なる勾配ブーストフォレストではありません。分割点の選択、枝刈り、速度の最適化などに至る余分な作業が非常に多くあります。まあ、それは仕事をするために最適化されている場合でも。

$f(x)=e^{x}$

— アレックス・R
ソース

2

答えてくれてありがとう！質問について

"For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"

--私はそれがポイントではないと言うのが怖いです。要点は、ANNトポロジは非常に一般的であり、すべてを網羅しているように思われ、最適化戦略では何がANNで何がANNではないかを判断できないようです。したがって、質問、ANNを定義するものは何ですか？それ以外の場合、すべてはある意味で他の用語で表現されたANNであるためです。

— ファイアバグ

1

"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"

-断言できるように、最適化は、ANNを構成する要素の定義を決定する要因ではありません。すべての決定木をニューラルネットワークとして記述できる場合（そしてそれを行うことができます）、DTは（一種の）NNであると安全に言えますが、逆は成り立ちません。

— ファイアバグ

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"

- 私はこれに賛同する。次に、「ニューラルネットワーク」は最も一般的なモデルのクラスとして解釈できます。おそらく、「無向グラフモデルと有向グラフモデルの両方のスーパーセットである「グラフモデル」ほど一般的ではありません。おそらく、これについてさらに詳しく説明できます;）

— Firebug

2

おそらく、ANNのより正確な名前は「微分可能ネットワーク」、つまり勾配降下法またはそのバリアントを使用して最適化できる複雑なパラメーター化関数です。これは微分可能性を強調する非常に一般的な定義ですが、主要なアイデア、それに適したタスク、基礎となる数学的フレームワークなどについては何も伝えていません。

微分可能性は特性であり、必ずしもメインではないことに注意してください。たとえば、SVMは勾配降下法を使用してトレーニングできるため、ニューラル/微分可能ネットワークの特性を示しますが、主なアイデアは超平面を使用したデータ分離です。変分オートエンコーダーはエンコーダーとデコーダーにMLPを使用しますが、最適化する関数はベイジアン統計などに由来します。

ニューラルネットワークと呼ばれることも多いが、学習にGDを使用しないモデルもいくつかあります。良い例がRBMです。私の推測では、「ニューラルネットワーク」というラベルは主に歴史的な理由で付けられていたものです。最終的に、RBMの作成者はジェフリーヒントンであり、ヒントンはニューラルネットワークの人ですよね。ただし、モデルを分析すると、RBMの構造がマルコフネットであることがわかります。エネルギーベースのコスト関数は、20世紀初頭の統計物理学から得られ、MCMC / Gibbsサンプリングはニューラルネットワークから完全に独立して並行して開発されています。

— 友だち
ソース

2

ANNの成功には、勾配ベースの学習が確かに役割を果たしています。しかし、一部のANNは微分可能でないため、微分可能性が定義に不可欠であるとは考えていません。たとえば、最初のANN（McCulloch-Pittsモデル）はバイナリしきい値単位を使用していました。現在の研究トピックは、スパイキングネットのような微分不可能なANNで学習を実行する方法です。または、典型的な微分可能なANNから始めて、微分不可能な損失関数を最小化することを宣言するとします。もうANNではないのですか？

— user20160

それがまさに、フィードフォワード、再帰、再帰、畳み込みネットワーク、オートエンコーダー、VAE、GAN、注意、および通常「ニューラルネットワーク」と呼ばれる他の多くのモデルをカバーする代替定義を提案した理由ですが、人間の脳のシミュレーションに基づくアプローチなどは除外しますまたはPGMを介した広範なサンプリング。2018年現在、これらのアプローチは実際に異なり、異なる最適化方法、異なるライブラリなどを使用します（CNNやRNNとは異なり、実際に人間をシミュレートするため、ネットをスパイクするための「ニューラルネットワーク」よりも良い名前を考えることはできませんが脳）。

— ffriend

1

ニューラルネットワークの定義に役立ついくつかのことを仮定しようとするかもしれません。

調整可能なパラメーターを持つ計算グラフ。
上記のパラメーターは、データ（実際またはシミュレート）に適合するように調整できます。
最適化される目的関数は、暗黙的または明示的に含まれます。パラメーターでグローバルまたはローカルにすることができます。

これは、今日一般的に使用されているすべてのニューラルネットワークと、いくつかの難解なニューラルネットワークを網羅していると確信しています。

最適化にはとらわれません（勾配ベースの最適化を課した場合、進化したネットワークはニューラルネットワークではありません）。

ニューロン/ノードまたはレイヤーについては言及していません（今日のニューラルネットワークの中には、これらの用語でほとんど説明されていないものもあります）が、それを組み込んでもう少し制限することができると思います。

— ファイアバグ
ソース