ここに取り引きがあります:
技術的にはあなたは本当の文章を書きました(両方のモデルは十分なパラメータを与えられた「クレイジー過ぎない」関数を近似することができます)が、それらの文章はどこにもあなたを全く導きません!
何故ですか?さて、万能近似理論、または十分なニューロンがある場合、ニューラルネットワークが任意のf(x)を計算できるという他の正式な証明を詳しく見てください。
私が見たこれらの種類の証明はすべて、1つの非表示レイヤーのみを使用しています。
直観的にここhttp://neuralnetworksanddeeplearning.com/chap5.htmlをざっと見てください。ある層を使用している場合、ある意味で必要なニューロンの数が指数関数的に増加することを示す作品があります。
ですから、理論的には正しいのですが、実際には無限のメモリはないので、実際には2 ^ 1000のニューロンネットをトレーニングしたくありませんよね?メモリが無限にあったとしても、そのネットは確実にオーバーフィットします。
私の考えでは、MLの最も重要なポイントは実用的なポイントです!それについて少し拡張しましょう。ここでの本当の大きな問題は、トレーニングセットの外で多項式が急激に増減する方法だけではありません。どういたしまして。簡単な例として、画像のピクセルは非常に特定の範囲(RGBカラーごとに[0,255])内にあるため、新しいサンプルがトレーニングセットの値の範囲内にあることが保証されます。いいえ。重要な点は、この比較は(!)で始めるのには役立ちません。
MNISTを少し試して、1つのレイヤーだけを使用して得られる実際の結果を確認することをお勧めします。
実用的なネットは複数の隠れ層を使用し、時には数十(まあ、Resnet ...)の層を使用します。理由があります。その理由は証明されていません。一般的に、ニューラルネットのアーキテクチャを選択することは、研究のホットな領域です。言い換えれば、さらに多くのことを知る必要がありますが、多くのデータセットについて、比較した両方のモデル(線形回帰とNNが1つの非表示レイヤー)は、まったく役に立ちません!
ちなみに、MLに入る場合、実際には現在の「研究分野」-PAC(おそらくほぼ正しい)/ VC次元である別の役に立たない定理があります。私はボーナスとしてそれを拡張します:
普遍的な近似が基本的に、無限のニューロンが与えられれば任意の関数を近似できると述べています(ありがとうございましたか?)、PACが実際に(実質的に!)無限の量のラベル付きの例が与えられれば、私たちのモデルの中で最高の仮説を求めています。実際のネットに必要な実際の例の量を、ある程度の大まかな確率で実際の望ましいエラー率の範囲内に収めるように計算したとき、それは本当に陽気でした:)それは宇宙の電子の数を超えていました。それを後押しするPSは、サンプルがIIDであることも前提としています(これは決して真実ではありません!)。