サイベンコの結果は、以下で伝えたいように、かなり直感的です。物事をよりトリッキーにするのは、彼が一般性と最小限の数の隠れ層の両方を目指していたことです。コルモゴロフの結果(vznによる)は実際、より強力な保証を達成しますが、機械学習との関連性はいくらか低くなります(特に、ノードが異種であるため、標準ニューラルネットを構築しません)。この結果は、表面上はいくつかの制限と連続関数を記録しているわずか3ページであるため困難です。しかし実際には、一連のフラクタルを構築しています。Cybenkoの結果は珍しいものであり、彼が使用している正確な手法により非常に興味深いものですが、そのフレーバーの結果は機械学習で非常に広く使用されています(そして、他の例を指摘できます)。
サイベンコの結果が保持される理由の概要を以下に示します。
- コンパクトセット上の連続関数は、区分的定数関数で近似できます。
- 区分的定数関数は、次のようにニューラルネットとして表すことができます。関数が定数である各領域に対して、その領域のインジケーター関数としてニューラルネットを使用します。次に、入力線形結合がすべてのインジケータの合計である単一ノードで、元の区分定数関数の対応する領域の定数値に等しい重みを持つ最終層を構築します。
上記の最初の点に関して、これは「コンパクトなセット上の連続関数は一様に連続している」というステートメントと見なすことができます。どのような私たちにこれが意味することは、上に連続関数を取ることができている、およびいくつかの目標誤りε > 0、その後のことができますグリッド[ 0 、1 ] D規模でのτ > 0(大体で終わる(1 / τ )dサブキューブ)各サブキューブで一定の関数がターゲット関数のϵ内にあるようにします。[ 0 、1]dϵ > 0[ 0 、1]dτ> 0(1 / τ)dϵ
現在、ニューラルネットはインジケータを正確に表すことはできませんが、非常に接近することができます。「伝達関数」がシグモイドであると仮定します。(伝達関数は、ニューラルネットノードの値を取得するために、入力の線形結合に適用する連続関数です。)次に、重みを大きくすることで、0に近い値または1に近い値を出力して入力を増やします。これは、Cybenkoの開発と一致しています。制限で0または1に等しい関数が必要であることに注意してください。limitの定義により、まさに私が言っていることを得ることができます。
私は最終層に伝達関数を無視(;それはありますならば、それは連続だ、我々はには何もマッピングを収めることができ転送に応じてその定数の逆数画像で何かに一定の重みを置き換えることにより、関数。)[ 0 、1 ]
上記はいくつかのレイヤーをとるように見えることに注意してください。たとえば、キューブにインジケーターを作成するために2つ、最後の出力レイヤーになります。サイベンコは、隠れ層の最小数と伝達関数の選択の柔軟性という2つの一般性のポイントを試みました。伝達関数の柔軟性をどのように実現するかについてはすでに説明しました。
レイヤーの最小数を取得するために、彼は上記の構成を避け、代わりに機能分析を使用して矛盾を作成します。ここに議論のスケッチがあります。
最後のノードは、その下の層の要素の線形結合を計算し、伝達関数を適用します。この線形結合は関数の線形結合であり、それ自体が関数であり、関数の一部のサブスペース内の関数であり、非表示層内の可能なノードによって広がります。
関数の部分空間は、通常の有限次元の部分空間に似ていますが、主な違いは潜在的に閉じた集合ではないことです。それが、サイベンコの議論がすべてその部分空間の閉鎖をとる理由です。このクロージャーがすべての連続関数を含むことを証明しようとしています。これは、すべての連続関数に勝手に近いことを意味します。
関数空間が単純な場合(ヒルベルト空間)、次のように議論できます。矛盾して部分空間に存在しないはずのターゲット連続関数を選択し、それを部分空間の直交補集合に射影します。この残差はゼロ以外でなければなりません。しかし、サブスペースは上の小さな立方体のようなものを表すことができるため、この残差の一部の領域を見つけ、それに小さな立方体をフィットさせ(上記のように)、ターゲット関数に近づけることができます。プロジェクションは最小限の要素を選択するため、これは矛盾です。(注意してください、私はここで何かを残しています:Cybenkoの議論は小さな立方体を構築しません、彼はこれも一般的に処理します。これは、Riesz表現定理の形式と伝達関数のプロパティを使用する場所です(覚えている場合)正しく、このステップには別の補題があります。
ヒルベルト空間ではありませんが、ハーン-バナッハの定理を使用して上記の投影ステップを置き換えることができます(ハーン-バナッハが選択の公理を使用することを証明します)。
ここで、コルモゴロフの結果についていくつか述べたいと思います。この結果は、明らかにサイベンコの背景のようなものを必要としませんが、私は個人的にそれははるかに威圧的だと思います。
O( d2)
さて、それで、このことはどのように機能しますか?!
ϵ > 0τ> 0
[ 0 、1 ][ 0 、1 ]dO( d2)RdRO( d2)
Cybenkoの結果は、1種類の伝達関数のみを使用しているため、機械学習により関連していることに注意してください。このタイプの定理は機械学習で非常に一般的です(vznは彼の答えでこれを提案しましたが、カスタム伝達関数のためにあまり適用されないコルモゴロフの結果に言及しました。これはコルモゴロフの結果のより洗練されたバージョン(他の著者)、しかしそれらはまだフラクタル、および少なくとも2つの伝達関数を含んでいます)。
これらのトピックに関するスライドをいくつか用意しています。興味がある場合は投稿できます(上記よりも荒々しくなく、写真を持っていることを望みます。どちらの証明もとても素晴らしいと思います。(また、これらのトピックに関する別の回答がありますが、コルモゴロフの結果を調べる前に書きました。)