普遍近似定理—ニューラルネットワーク


23

これは以前にMSE に投稿しましたが、ここで質問する方が良いかもしれません。

普遍近似定理は、「限られた数の隠れニューロンを含む単一の隠れ層を備えた標準的な多層フィードフォワードネットワークは、活性化関数に関する穏やかな仮定の下で、Rnのコンパクトなサブセットの連続関数間の普遍的な近似器である」と述べています。

私はこれが何を意味するのか理解していますが、関連する論文は数学の理解レベルをはるかに超えており、なぜそれが真実であるか、隠れ層が非線形関数をどのように近似するかを把握することはできません。

それでは、基本的な計算や線形代数よりも少し高度な用語で、1つの隠れ層を持つフィードフォワードネットワークはどのように非線形関数を近似しますか?答えは必ずしも完全に具体的である必要はありません。


また、グローバルな最適化を参照してください。グローバルな極値
-vzn

マイケル・ニールセンによる視覚的証明が非常に有用であることがわかった
ミスター・ツジョルダー

回答:


26

サイベンコの結果は、以下で伝えたいように、かなり直感的です。物事をよりトリッキーにするのは、彼が一般性と最小限の数の隠れ層の両方を目指していたことです。コルモゴロフの結果(vznによる)は実際、より強力な保証を達成しますが、機械学習との関連性はいくらか低くなります(特に、ノードが異種であるため、標準ニューラルネットを構築しません)。この結果は、表面上はいくつかの制限と連続関数を記録しているわずか3ページであるため困難です。しかし実際には、一連のフラクタルを構築しています。Cybenkoの結果は珍しいものであり、彼が使用している正確な手法により非常に興味深いものですが、そのフレーバーの結果は機械学習で非常に広く使用されています(そして、他の例を指摘できます)。

サイベンコの結果が保持される理由の概要を以下に示します。

  • コンパクトセット上の連続関数は、区分的定数関数で近似できます。
  • 区分的定数関数は、次のようにニューラルネットとして表すことができます。関数が定数である各領域に対して、その領域のインジケーター関数としてニューラルネットを使用します。次に、入力線形結合がすべてのインジケータの合計である単一ノードで、元の区分定数関数の対応する領域の定数値に等しい重みを持つ最終層を構築します。

上記の最初の点に関して、これは「コンパクトなセット上の連続関数は一様に連続している」というステートメントと見なすことができます。どのような私たちにこれが意味することは、上に連続関数を取ることができている、およびいくつかの目標誤りε > 0、その後のことができますグリッド[ 0 1 ] D規模でのτ > 0(大体で終わる1 / τ dサブキューブ)各サブキューブで一定の関数がターゲット関数のϵ内にあるようにします。[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

現在、ニューラルネットはインジケータを正確に表すことはできませんが、非常に接近することができます。「伝達関数」がシグモイドであると仮定します。(伝達関数は、ニューラルネットノードの値を取得するために、入力の線形結合に適用する連続関数です。)次に、重みを大きくすることで、0に近い値または1に近い値を出力して入力を増やします。これは、Cybenkoの開発と一致しています。制限で0または1に等しい関数が必要であることに注意してください。limitの定義により、まさに私が言っていることを得ることができます。

私は最終層に伝達関数を無視(;それはありますならば、それは連続だ、我々はには何もマッピングを収めることができ転送に応じてその定数の逆数画像で何かに一定の重みを置き換えることにより、関数。)[0,1]

上記はいくつかのレイヤーをとるように見えることに注意してください。たとえば、キュ​​ーブにインジケーターを作成するために2つ、最後の出力レイヤーになります。サイベンコは、隠れ層の最小数と伝達関数の選択の柔軟性という2つの一般性のポイントを試みました。伝達関数の柔軟性をどのように実現するかについてはすでに説明しました。

レイヤーの最小数を取得するために、彼は上記の構成を避け、代わりに機能分析を使用して矛盾を作成します。ここに議論のスケッチがあります。

  • 最後のノードは、その下の層の要素の線形結合を計算し、伝達関数を適用します。この線形結合は関数の線形結合であり、それ自体が関数であり、関数の一部のサブスペース内の関数であり、非表示層内の可能なノードによって広がります。

  • 関数の部分空間は、通常の有限次元の部分空間に似ていますが、主な違いは潜在的に閉じた集合ではないことです。それが、サイベンコの議論がすべてその部分空間の閉鎖をとる理由です。このクロージャーがすべての連続関数を含むことを証明しようとしています。これは、すべての連続関数に勝手に近いことを意味します。

  • 関数空間が単純な場合(ヒルベルト空間)、次のように議論できます。矛盾して部分空間に存在しないはずのターゲット連続関数を選択し、それを部分空間の直交補集合に射影します。この残差はゼロ以外でなければなりません。しかし、サブスペースは上の小さな立方体のようなものを表すことができるため、この残差の一部の領域を見つけ、それに小さな立方体をフィットさせ(上記のように)、ターゲット関数に近づけることができます。プロジェクションは最小限の要素を選択するため、これは矛盾です。(注意してください、私はここで何かを残しています:Cybenkoの議論は小さな立方体を構築しません、彼はこれも一般的に処理します。これは、Riesz表現定理の形式と伝達関数のプロパティを使用する場所です(覚えている場合)正しく、このステップには別の補題があります。

  • ヒルベルト空間ではありませんが、ハーン-バナッハの定理を使用して上記の投影ステップを置き換えることができます(ハーン-バナッハが選択の公理を使用することを証明します)。

ここで、コルモゴロフの結果についていくつか述べたいと思います。この結果は、明らかにサイベンコの背景のようなものを必要としませんが、私は個人的にそれははるかに威圧的だと思います。

O(d2)

さて、それで、このことはどのように機能しますか?!

ϵ>0τ>0

[0,1][0,1]dO(d2)RdRO(d2)

Cybenkoの結果は、1種類の伝達関数のみを使用しているため、機械学習により関連していることに注意してください。このタイプの定理は機械学習で非常に一般的です(vznは彼の答えでこれを提案しましたが、カスタム伝達関数のためにあまり適用されないコルモゴロフの結果に言及しました。これはコルモゴロフの結果のより洗練されたバージョン(他の著者)、しかしそれらはまだフラクタル、および少なくとも2つの伝達関数を含んでいます)。

これらのトピックに関するスライドをいくつか用意しています。興味がある場合は投稿できます(上記よりも荒々しくなく、写真を持っていることを望みます。どちらの証明もとても素晴らしいと思います。(また、これらのトピックに関する別の回答がありますが、コルモゴロフの結果を調べる前に書きました。)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
サショニコロフ2013年

3
SfSLL(g)=0gSL(f)=fL(f)いくつかの署名されたメジャーに関する積分として。しかし、これは、Cybenkoの伝達関数の条件(次のコメントに続く)により証明を終了します。
matus

3
@ SashoNikolov、Cybenkoの条件は、符号付きメジャーが正確にゼロではない場合、アフィン関数が存在するため、そのアフィン関数で構成された伝達関数の積分は、そのメジャーにわたってゼロに等しくないことです。次に、一般化シグモイド(上記で示したように、左右に0と1の制限がある)が法案に適合する補題を証明する必要があります。(次のコメントに続く。)
matus

2
@SashoNikolov。上記で「残差に沿ってキューブを配置する」と言いました。署名されたメジャーが正確にゼロではないため、これにより作業がわずかに簡単になります。小さなピースを選択し、そこにインジケーターを追加します。彼の場合、彼は少し働かなければなりませんが、同様にこれはアフィン関数を使ってシグモイドの周りを移動することになり、簡単な領域を見つけて、ゼロ以外の積分を取得し、Hahn-Banach(部分空間ではゼロ) ; ヒルベルトの意味で、私たちは残差を縮小しました、矛盾。
-matus

1
うわー、これは非常に良い答えです。当然、あなたがそれらに答えることを気にしないならば、私にはいくつかの質問があります。Cybenkoの結果(おっしゃるように)はアプリケーションにとって最も便利に思えますが、関数の部分空間の扱いに少し迷います。可能なノードの線形結合の部分空間の直交補集合に任意の連続関数をどのように投影しますか。さらに言えば、その部分空間の直交補完をどのように概念化するのでしょうか?空間に近い関数は、互いにより近似していますか?(続き)。
マットマンソン

3

コルモゴロフの定理[1]として知られる、機械学習の鍵となる高度な結果があります。なぜそれが機能するのか、直感的なスケッチを見たことがない。これは、それに近づくさまざまな文化に関係している可能性があります。適用される学習群は、コルモゴロフの定理を、NNが存在する可能性があることを示すだけの存在定理と見なします。したがって、少なくとも構造は過度に制限されませんが、定理はこれらのNNが見つかることを保証しません。数学者は、定理の低レベルの適用にそれほど関心がありません。

定理は、パーセプトロン(ミンスキー/パパート)から学ぶことができなかった基本的な関数(つまり非線形)の批判に対抗するために、多層NNの固有の洗練を呼び出し/防御するためにも歴史的に使用されました。

理論的なコンピューター科学者は、NNが「近似」と見なされないことを好みます。その用語には特別な/異なる意味があるためです。おそらく、区分的線形補間には多少の大まかな類似性がありますが、繰り返しますが、それがレイアウトされているのを見たことはありません。

[1]コルモゴロフ、AN(1957)。1つの変数の連続関数と加算の重ね合わせによる多くの変数の連続関数の表現について Doklady Akademii Nauk SSSR、144、679-681; アメリカ数学学会翻訳、28、55-59 [1963]

[2] 2.3連続関数のフィードフォワードニューラルネットワークの近似機能

[3] コルモゴロフの定理と多層ニューラルネットワーク Kurkova


機械学習技術の近似アルゴリズムも参照してください、stats.se
vzn

「この高度な結果[...]は、それが機能する理由の直感的なスケッチを見ていません。」そのようなスケッチは、高度な数学の群衆の誰かにとってかなりの仕事でしょうか?高度な数学の人々は、なぜそれが機能するのかを直感的に理解していますか?この定理を直感的に理解することは、ANNの優れたトポロジと学習アルゴリズムを考案する場合、応用学習群が強く望んでいるものと思われます。
マットマンソン

7
文法、つづり、句読点、大文字化のために編集されています。
ジェフ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.