コメントで書いたように、この質問は私には広すぎるように思えますが、回答を試みます。いくつかの境界を設定するために、ほとんどのMLの基礎となる小さな数学から始め、次にDLの最近の結果に集中します。
バイアス・分散トレードオフは、我々はそれを言及せず起動することはできませんので、ML上など無数の書籍、コース、MOOCs、ブログ、つぶやき、に言及されています。
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
ここでの証明:https : //web.stanford.edu/~hastie/ElemStatLearn/
ガウス・マルコフの定理線形モデルがtrueで、誤差項のいくつかの仮定が有効であるとき、OLSは、最小値を有する、ことを明確にしている:(それとの契約はい、線形回帰は、機械学習の重要な部分のまま、無何を重要で)線形モデルの不偏線形推定量の間での平均二乗誤差(上記の式では単なるBias2 + Variance)。したがって、OLSよりも平均二乗誤差が優れているため、予測誤差が優れている、バイアス付きの線形推定器(または非線形推定器)が存在する可能性があります。そしてこれは、MLの主力であるすべての正則化兵器(尾根回帰、LASSO、重量減衰など)への道を開きます。証明はここに(そして他の無数の本に)与えられています:
https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
Carlos Cinelliがコメントで指摘したように、おそらく正則化アプローチの爆発により関連性があり、学ぶことは間違いなくもっと楽しいのはJames-Steinの定理です。n独立した同じ分散を考えますが、同じ平均ガウス確率変数ではありません:
Xi|μi∼N(θi,σ2),i=1,…,n
言い換えれば、我々は持っているn−コンポーネントガウスランダムベクトルX∼N(θ,σ2I)。私たちは、一つのサンプル持っているから、我々は推定したい。MLE(およびUMVUE)推定量は、明らかにxXθθ M L E = Xθ^MLE=xです。James-Stein推定量を考えます
θ^JS=(1−(n−2)σ2||x||2)x
明らかに、あれば(n−2)σ2≤||x||2、θ J Sは収縮ゼロに向かってMLE推定を。ジェームズ・スタインの定理がためと述べているのn ≥ 4、θ J S厳密に支配θ M L Eすなわち、より低いMSE持っ∀ θを。Pheraps驚くべきことに、我々は他の定数の方に縮小した場合でも、C ≠ 0 、θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSまだ支配 θ MLE。以来X私は独立しているが、それは奇妙に見えるかもしれない、私たちの見積もり向上する可能性があり、スペインで生産りんごの数のサンプルを含む3人の無関係の高さを推定しようとすると、平均を。ここでのキーポイントは「平均」です。パラメータベクトルのすべてのコンポーネントの同時推定の平均二乗誤差は小さくなりますが、1つ以上のコンポーネントの二乗誤差は大きくなる可能性があり、実際、 「極端な」観察があります。 θ^MLEXi
確かに単変量推定の場合の「最適な」推定器であるMLEが多変量推定のために廃止されたことは、当時かなり衝撃的であり、ML用語の正則化として知られている収縮に大きな関心をもたらしました。混合モデルと「借入力」の概念とのいくつかの類似点に注意することができます。ここで説明したように、確かに何らかのつながりがあります。
収縮に関する統一された見解:混合モデルにおけるスタインのパラドックス、リッジ回帰、およびランダム効果の関係(ある場合)とは何ですか?
参照:ジェームズ、W。、スタイン、C。、二次損失による推定。数学統計と確率に関する第4回バークレーシンポジウムの議事録、第1巻:統計理論への貢献、361--379、カリフォルニア大学出版局、バークレー、カリフォルニア、1961
主成分分析は次元削減の重要なトピックの鍵であり、特異値分解に基づいています:各N×p実行列X(定理は簡単に複雑な行列に一般化されますが)
X=UDVT
ここで、サイズN × pのUは直交し、Dは非負の対角要素を持つp × p対角行列であり、サイズp × pのUは再び直交します。計算方法の証明とアルゴリズムについては、Golub、G.、およびVan Loan、C.(1983)、Matrix computes、John Hopkins University press、Baltimoreを参照してください。N×pDp×pUp×p
マーサーの定理は、さまざまなMLメソッドの基礎です。薄板スプライン、サポートベクターマシン、ガウスランダムプロセスのクリギング推定などです。基本的に、いわゆるカーネルトリックの背後にある2つの定理の1つです。LET K(x,y):[a,b]×[a,b]→R symmmetric連続関数またはカーネルです。場合K半正定値であり、それは非負の固有値に対応する固有関数のorthornormal基礎を認めています。
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
ML理論に対するこの定理の重要性は、ガウス過程に関するRasmussen&Williamsのテキストなど、有名なテキストで得られる参考文献の数によって証明されています。
参照:J. Mercer、正および負のタイプの関数、および積分方程式の理論との関連。ロンドン王立協会の哲学的取引。シリーズA、数学または物理的特性の論文を含む、209:415-446、1909
コンラッド・ヨルゲンス、線形積分演算子、ピットマン、ボストン、1982年にも、より簡単なプレゼンテーションがあります。
マーサーの定理とともに、カーネルトリックの理論的基礎を示すもう1つの定理は、表現定理です。サンプル空間Xと対称正半正定核K:X×X→Rます。また聞かせてHK関連付けられたRKHSもK。最後に、S={xi,yi}ni=1トレーニングサンプルとします。定理は、すべての機能の中でそれを言うf∈HK、Mercerの定理により、Kの固有関数に関して無限の表現をすべて認めます。正規化されたリスクを最小化するものは、nトレーニングポイントで評価されるカーネルによって形成される基底に常に有限の表現を持ちます。
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(定理は最後の平等です)。参照:Wahba、G。1990、観測データのスプラインモデル、SIAM、フィラデルフィア。
ユニバーサル近似定理は、すでにそれは一見とても思えないかもしれない場合でも、ユーザートビアスWindischが引用し、それが機能解析するよりも、機械学習にあまり関係がありました。問題は、定理がそのようなネットワークが存在することだけを言っているが、しかし:
- 隠れ層のサイズNと、たとえばTotal Variationなどのターゲット関数f(x)の複雑さの尺度との間に相関関係はありません。場合f(x)=sin(ωx):[0,2π]→[−1,1]とN固定エラーのために必要なϵ growed指数関数とω、単一の隠れ層ニューラルネットワークは役に立たないであろう。
- ネットワークF(x)が学習可能であるかどうかは言いません。つまり、与えられたと仮定しfとϵ、我々は大きさということを知っているN NNが近似するfハイパーキューブで必要な公差で。次に、サイズMトレーニングセット と、back-propなどの学習手順を使用して、Mを増やすことでFを回復できるという保証はありますか?
- 最後に、さらに悪いことに、ニューラルネットワークの予測誤差については何も言及していません。私たちが本当に興味を持っているのは、サイズMすべてのトレーニングセットで少なくとも平均化された予測誤差の推定です。定理はこの点では役に立ちません。
この定理のHornik版の小さな問題点は、ReLUアクティベーション関数には当てはまらないことです。しかし、バートレットはその後、このギャップをカバーする拡張バージョンを証明しました。
今まで、私が考えたすべての定理は誰にもよく知られていました。それでは、楽しいものの時間です:-) ディープラーニングの定理をいくつか見てみましょう。
仮定:
- 深いニューラルネットワークΦ(X,W)(固定のためのW、ΦW(X)その出力がニューラルネットワークの入力を関連付ける関数である)及び正則損失Θ(W)の両方の和である正均質機能同程度の
- 損失関数L(Y,Φ(X,W)は凸であり、コンパクトなセットSでXで微分可能になるS
次に:
- 以下のための任意の極小値L(Y,Φ(X,W))+λΘ(W)のサブようΦ(X,W)ゼロの重みを有し、(大域的最小値である定理1)
- 重要なネットワークサイズを超えると、ローカル降下は初期化から常にグローバルな最小値に収束します(定理2)。
これは非常に興味深いです:畳み込み層、ReLU、最大プーリング、完全に接続されたReLUおよび線形層のみで構成されたCNNは正に同種の関数ですが、シグモイド活性化関数を含めると、これはもはや真実ではなく、部分的に優れているReLUの一部のアプリケーションでのパフォーマンス+シグモイドに関する最大プーリング。さらに、定理は、ΘがΦと同程度のWで正に同次である場合にのみ成立します。さて、楽しい事実はある 、L 1またはL 2正則、積極的に均質なものの、同程度の必要はありませんΦを度(ΦΦl1l2ΦΦ、前述の単純なCNNの場合、層の数とともに増加します)。代わりに、バッチ正規化やパスSGDなどのより新しい正則化方法は、Φと同程度の正に均質な正則化関数に対応し、ドロップアウトは、このフレームワークに正確に適合しませんが、それに強い類似性を保持します。これは、CNNで高い精度を得るために、l1およびl2正規化では十分ではない理由を説明するかもしれませんが、ドロップアウトやバッチ正規化など、あらゆる種類の悪魔的なトリックを使用する必要があります!私の知る限り、これはバッチ正規化の有効性の説明に最も近いものです。そうでなければ、アル・ラヒミの講演で正しく指摘されているように、それは非常にあいまいです。
定理1に基づいて作成する別の観察結果は、死んだニューロンの問題があってもReLUがうまく機能する理由を説明できることです。この直観によると、トレーニング中に、ReLUニューロンの一部が「死ぬ」(x<0の場合はReLUの勾配がゼロであるため、ゼロアクティベーションになり、その後回復しない)という事実は、「バグではなく機能」です。 「最小値に達し、サブネットワーク全体が死んだ場合、定理1の仮説の下で、グローバルな最小値に到達した可能性があるためです。)。私は何かを見逃しているかもしれませんが、この解釈は非常に難しいと思います。まず、トレーニング中に、ReLUはローカルミニムに到達するかなり前に「死ぬ」ことがあります。第二に、ReLUユニットが「死ぬ」とき、彼らは常に完全なサブネットワーク上でそれを行うことを証明する必要があります:これが些細なことである唯一のケースは、あなたが1つの隠されたレイヤーだけを持っているときです。サブネットワーク。しかし、一般的に私は「死んだニューロン」を良いものと見ることに非常に慎重です。
参照:
B. HaeffeleおよびR. Vidal、ニューラルネットワークトレーニングにおけるグローバル最適性、 IEEE Conference on Computer Vision and Pattern Recognition、2017年
B.ヘッフェレとR.ヴィダル。テンソル因数分解、ディープラーニング、およびそれ以上のグローバル最適性、arXiv、abs / 1506.07540、2015年。
画像分類には、位置、姿勢、視点、照明、表情などの一般的な自然画像に存在するが情報を含まないさまざまな変換に対して不変(または少なくともロバスト、つまり非常に弱い感度)の学習表現が必要です。分類タスク用。音声認識でも同じことが言えます。ピッチ、音量、ペース、アクセントの変化。などは、単語の分類の変更につながるべきではありません。CNNで使用される畳み込み、最大プーリング、平均プーリングなどの操作にはまさにこの目標があるため、直感的にはこれらのアプリケーションで機能すると期待しています。しかし、この直感をサポートする定理はありますか?ある垂直並進不変性定理は、、名前にもかかわらず、垂直方向の翻訳とは関係ありませんが、基本的には、レイヤーの数が増えるにつれて、後続のレイヤーで学習された機能がますます不変になるという結果です。これは、散乱ネットワークには当てはまるがCNNには当てはまらない古い水平並進不変性定理とは反対です。ただし、定理は非常に技術的です。
- f(入力画像)が平方可積分であると仮定します
- フィルタが変換演算子Ttで通勤すると仮定します。この演算子は、入力画像fをそれ自体の翻訳されたコピーTtfマッピングします。学習された畳み込みカーネル(フィルター)は、この仮説を満たします。
- ネットワーク内のすべてのフィルター、非線形性、およびプーリングが、いわゆる弱い許容性条件を満たしていると仮定します。これは基本的に、ある種の弱い規則性と境界条件です。これらの条件は、学習された畳み込みカーネル(各層で正規化操作が実行される限り)、ReLU、シグモイド、tanhなど、非線形性、および平均プーリングによって満たされますが、最大プーリングによっては満たされません。そのため、実際のCNNアーキテクチャの一部(すべてではない)をカバーしています。
- nSn>1Sn≥1
Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(トリプルバーはエラーではありません)これは、基本的に、各層がますます不変になる機能を学習し、無限に深いネットワークの制限で完全に不変のアーキテクチャを持っていることを意味します。CNNは有限数のレイヤーを持っているため、完全に翻訳不変ではありません。これは開業医によく知られています。
参考:T. WiatowskiとH. Bolcskei、特徴抽出のためのディープ畳み込みニューラルネットワークのA数学理論、arXivの:1512.06293v3。
結論として、Vapnik-Chervonkensis次元またはRademacherの複雑さに基づくDeep Neural Networkの一般化エラーの多数の境界は、パラメーターの数(指数関数的でさえある)とともに大きくなり、DNNがうまく機能する理由を説明できない実際には、パラメータの数がトレーニングサンプルの数よりかなり大きい場合でもです。実際のところ、VC理論はディープラーニングではあまり有用ではありません。
1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
どこ:
J.ソコリ、R。ギリーズ、G。サピロ、M。ロドリゲス。不変分類子の一般化エラー。AISTATS、2017年