人工ニューラルネットワークは、多項式機能を使用した線形回帰と同等ですか？

11

他の機械学習アルゴリズムと比較して、ニューラルネットワークとその利点の理解を深めたいです。私の理解は以下の通りであり、私の質問は：

私の理解を訂正して補足していただけますか？:)

私の理解：

（1）人工ニューラルネットワーク=入力値から出力値を予測する関数。Universal Approximation Theorem（https://en.wikipedia.org/wiki/Universal_approximation_theorem）によれば、十分なニューロンがあれば、通常は（予測どおりに動作するはずですが）可能な予測関数を使用できます。

（2）入力値の多項式を追加の入力値として取る線形回帰の場合も同じです。これは、各関数を多項式で近似（テイラー展開と比較）できるためです。

（3）これは、（ある意味では、可能な限り最良の結果に関して）、これらの2つの方法は同等であることを意味します。

（4）したがって、それらの主な違いは、どの方法がより良い計算実装に適しているかにあります。言い換えると、トレーニングの例に基づいて、最終的に予測関数を定義するパラメーターのより高速な適切な値を、どの方法で見つけることができますか。

私は私の考えを改善するために他のリンクや本へのどんな考え、コメントそして推薦も歓迎します。

regression machine-learning

— タイヤ
ソース

2

math.stackexchange.comに移動する必要があります。アクティベーションを使用したニューラルネットワークは、任意の滑らかな関数に任意に近似しますが、もう1つの機能があります。滑らかさ（重みのスケーリング）はポイントに依存します。これは、優れたグローバルの鍵近似。多項式近似ではこれを達成することはできません（連続関数が与えられ、で畳み込みを行い、ある点の周りのテイラー展開の最初の数項を使用すると、適切なローカル近似）

\tanh

$\tanh$

n^{d} e^{- π | n x |^{2}}

$n^d e^{-\pi |n x|^2}$

— user1952009 '29

@ user1952009-定理の近似が均一であるため、Stone-Weierstrassは任意の優れたグローバル近似を意味しませんか？

— jbowman 2017年

@jbowmanそれは良い局所近似を行います：任意の

f

$f$

r

$r$

ϵ

$\epsilon$

f_{r, ϵ}

$f_{r,\epsilon}$

sup_{| x | \leq r} | f (x) - f_{r, ϵ} (x) | \leq ϵ

$\sup_{|x| \le r} |f(x)-f_{r,\epsilon}(x)| \le \epsilon$

x_{0}

$x_0$

1

これは潜在的にstats.stackexchange.com/questions/41289/の複製です...私はこの質問にフラグを立てますが、それに恵みがあれば、代わりにここでコメントするつもりです:)

— Hugh Perkins

1

+1 @HughPerkinsは、洞察に満ちた関連Qへのリンクを提供します。ただし、関連する質問の回答は質問に対する洞察を提供します（たとえば、Stephan KolassaがaNNは非線形性をデフォルトとして考慮しているのに対し、回帰はそうしているだけです）追加の手法で具体的にモデル化した場合）、重複のフラグを立てません。どちらのモデルタイプがより良い結果をもたらすかを尋ねましたが、この質問は、2つの方法が結果と一般化可能性において類似しているかどうかを具体的に説明するよう求めています。

— IWS、2017年

7

ここに取り引きがあります：

技術的にはあなたは本当の文章を書きました（両方のモデルは十分なパラメータを与えられた「クレイジー過ぎない」関数を近似することができます）が、それらの文章はどこにもあなたを全く導きません！

何故ですか？さて、万能近似理論、または十分なニューロンがある場合、ニューラルネットワークが任意のf（x）を計算できるという他の正式な証明を詳しく見てください。

私が見たこれらの種類の証明はすべて、1つの非表示レイヤーのみを使用しています。

直観的にここhttp://neuralnetworksanddeeplearning.com/chap5.htmlをざっと見てください。ある層を使用している場合、ある意味で必要なニューロンの数が指数関数的に増加することを示す作品があります。

ですから、理論的には正しいのですが、実際には無限のメモリはないので、実際には2 ^ 1000のニューロンネットをトレーニングしたくありませんよね？メモリが無限にあったとしても、そのネットは確実にオーバーフィットします。

私の考えでは、MLの最も重要なポイントは実用的なポイントです！それについて少し拡張しましょう。ここでの本当の大きな問題は、トレーニングセットの外で多項式が急激に増減する方法だけではありません。どういたしまして。簡単な例として、画像のピクセルは非常に特定の範囲（RGBカラーごとに[0,255]）内にあるため、新しいサンプルがトレーニングセットの値の範囲内にあることが保証されます。いいえ。重要な点は、この比較は（！）で始めるのには役立ちません。

MNISTを少し試して、1つのレイヤーだけを使用して得られる実際の結果を確認することをお勧めします。

実用的なネットは複数の隠れ層を使用し、時には数十（まあ、Resnet ...）の層を使用します。理由があります。その理由は証明されていません。一般的に、ニューラルネットのアーキテクチャを選択することは、研究のホットな領域です。言い換えれば、さらに多くのことを知る必要がありますが、多くのデータセットについて、比較した両方のモデル（線形回帰とNNが1つの非表示レイヤー）は、まったく役に立ちません！

ちなみに、MLに入る場合、実際には現在の「研究分野」-PAC（おそらくほぼ正しい）/ VC次元である別の役に立たない定理があります。私はボーナスとしてそれを拡張します：

普遍的な近似が基本的に、無限のニューロンが与えられれば任意の関数を近似できると述べています（ありがとうございましたか？）、PACが実際に（実質的に！）無限の量のラベル付きの例が与えられれば、私たちのモデルの中で最高の仮説を求めています。実際のネットに必要な実際の例の量を、ある程度の大まかな確率で実際の望ましいエラー率の範囲内に収めるように計算したとき、それは本当に陽気でした:)それは宇宙の電子の数を超えていました。それを後押しするPSは、サンプルがIIDであることも前提としています（これは決して真実ではありません！）。

— ヨニ・ケレン
ソース

では、人工ニューラルネットワークは、多項式機能を使用した線形回帰に相当するのでしょうか。あなたの答えは層と必要なニューロンの量に焦点を当てているようですが、これらの2つの分析がなぜ同等/同等である必要がある/できないかについては説明していません。（非表示の）層を追加すると、ニューラルネットワークは多項式の回帰よりも（さらに）より多くの関数を処理できるようになりますか？そして、OPが彼/彼女自身の答えで疑問に思ったように、これらのモデルの外部の有効性/サンプル外のパフォーマンス（およびより複雑なモデルオプションとパフォーマンスの使用の間のトレードオフ）はどうですか？

— IWS

私はあなたに私の最初の文を紹介します：「技術的にあなたは本当の文を書きました」。

— Yoni Keren 2017年

ええと、私は尋ねました。「OPは真の文章を書いた」というあなたの陳述の理由が、あなたの答えに基づいて私には明確ではなかったからです。これについて詳しく説明していただけませんか？

— IWS 2017年

確かに。これは良いですか、それともまだ不明な点がありますか？

— Yoni Keren 2017年

7

ニューラルネットワークとしてカウントされるものと多項式としてカウントされるものの両方によって、任意の関数を任意に近似できることは事実です。

まず、これは多くの構成要素に当てはまることを覚えておいてください。正弦と余弦（フーリエ変換）を組み合わせることによって、または単純に多数の「長方形」を追加することによって、関数を近似できます（実際には正確な定義ではありませんが、要点を理解してください）。

第二に、ヨニの答えと同じように、ネットワークをトレーニングするとき、または回帰に多くのパワーを当てはめるときは常に、ニューロンの数またはパワーの数が固定されます。次に、いくつかのアルゴリズム、おそらく勾配降下法などを適用し、それを使用して最適なパラメーターを見つけます。パラメータは、ネットワークの重みと、大きな多項式の係数です。多項式で使用する最大パワー、または使用するニューロンの数は、ハイパーパラメーターと呼ばれます。実際には、それらのいくつかを試します。確かに、パラメーターがパラメーターである場合もありますが、実際にはそうではありません。

ただし、機械学習では、データ全体に完全に適合する関数は必要ありません。それは実際に達成することはそれほど難しいことではありません。あなたはうまく合う何かを望んでいますが、おそらくまだ見たことのないポイントでも機能します。たとえば、のドキュメントからこの画像を参照してくださいscikit-learn。

直線は単純すぎますが、最適な近似は右側ではなく、中央にありますが、右側の関数が最適です。右側の関数は、特にそれらが左側の波状ビットの近くにある場合、新しいデータポイントに対してかなり奇妙な（そしておそらく次善の）予測を行います。

いくつかのパラメーターがうまく機能しているニューラルネットワークの最終的な理由は、それらは何かに適合できるが、実際には適合しすぎないことです。これは、何らかの形の確率的勾配降下法を使用して、それらが訓練される方法にも大きく関係しています。

— Gijs
ソース

2

まだ回答が提供されていないので（user1952009のコメントは回答として投稿されていれば受け入れます）、それまでに学んだことを共有しましょう。

（1）私には私の理解は概ね正しいようですが、悪魔は細部にあります。

（2）「私の理解」で見落とした1つのこと：パラメータ化された仮説は、トレーニングセットの外部のデータに一般化されるか。ニューラルネットワーク予測の非多項式の性質は、単純な線形/多項式回帰よりも優れている場合があります（多項式がトレーニングセットの外で非常に急速に増加/減少することを思い出してください）。

（3）パラメータをすばやく計算できることの重要性をさらに説明するリンク：http : //www.heatonresearch.com/2017/06/01/hidden-layers.html

— タイヤ
ソース

2

多分このペーパーはあなたを助けることができます：

ニューラルネットの代替としての多項式回帰

要約は言う：

ニューラルネットワーク（NN）の成功にもかかわらず、「ブラックボックス」の性質について多くの人の間でまだ懸念があります。なぜ機能するのですか？ここで、NNは実際には本質的に多項式回帰モデルであるという簡単な分析的議論を提示します。このビューは、NNにさまざまな影響を与えます。たとえば、NNで収束の問題が発生する理由を説明し、過剰適合を回避するための大まかなガイダンスを提供します。さらに、この現象を使用して、これまでに文献で報告されていないNNの多重共線性プロパティを予測および確認します。最も重要なのは、この緩やかな対応が与えられた場合、NNではなく多項式モデルを日常的に使用することを選択できるため、多くの調整パラメーターを設定する必要がある、収束の問題に対処するなど、後者のいくつかの主要な問題を回避できることです。いくつかの経験的結果を提示します。いずれの場合も、多項式アプローチの精度はNNアプローチの精度と同じかそれを上回ります。多くの機能を備えたオープンソースのソフトウェアパッケージであるpolyregが利用可能です。

— ルカザフ
ソース