機械学習(深層学習)の主な定理は何ですか?


45

Al Rahimiは最近、NIPS 2017で現在の機械学習とAlchemyを比較する非常に挑発的な講演を行いました。彼の主張の1つは、基本的な結果を証明する簡単な定理を得るために、理論的な発展に戻る必要があるということです。

彼がそれを言ったとき、私はMLの主要な定理を探し始めましたが、主要な結果を理解する良い参照を見つけることができませんでした。だからここに私の質問があります:ML / DLの現在の主要な数学的定理(理論)とは何ですか?Vapnikの仕事はここのどこかに行くと思います。余分に、主な理論上の未解決の問題は何ですか?


3
@Timこのtheadはstats.stackexchange.com/questions/2379/…のようなものです(「統計の大きな問題は何ですか?」)。
whuber

2
それは少し広いです。少なくとも機械学習のサブセットを指定できますか?ディープラーニング、または少なくとも教師付き学習に限定すると、答えを試すことができます。しかし、「機械学習の数学」のようなものを主張する場合、答えは書くのに何年もかかります。
DeltaIV

3
@whuberの例のアナログに照らして、特にこれがDeltaVリクエストとして監視された学習などのMLの特定のサブセットに制限できる場合、これはCWとして開いたままにしておくと言いたいです。
GUNG -復活モニカ

3
@DeltaIVタイトルに「Deep」が含まれていることに注意してください。
アメーバは、モニカを復活させる

4
この質問を理解することは、David Donohoが主催する最近の一連の講義のトピックでした:stats385.github.ioを参照してください。
user795305

回答:


43

コメントで書いたように、この質問は私には広すぎるように思えますが、回答を試みます。いくつかの境界を設定するために、ほとんどのMLの基礎となる小さな数学から始め、次にDLの最近の結果に集中します。


バイアス・分散トレードオフは、我々はそれを言及せず起動することはできませんので、ML上など無数の書籍、コース、MOOCs、ブログ、つぶやき、に言及されています。

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

ここでの証明:https : //web.stanford.edu/~hastie/ElemStatLearn/


ガウス・マルコフの定理線形モデルがtrueで、誤差項のいくつかの仮定が有効であるとき、OLSは、最小値を有する、ことを明確にしている:(それとの契約はい、線形回帰は、機械学習の重要な部分のまま、無何を重要で)線形モデルの不偏線形推定量の間での平均二乗誤差(上記の式では単なるBias2 + Variance)。したがって、OLSよりも平均二乗誤差が優れているため、予測誤差が優れている、バイアス付きの線形推定器(または非線形推定器)が存在する可能性があります。そしてこれは、MLの主力であるすべての正則化兵器(尾根回帰、LASSO、重量減衰など)への道を開きます。証明はここに(そして他の無数の本に)与えられています: https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

Carlos Cinelliがコメントで指摘したように、おそらく正則化アプローチの爆発により関連性があり、学ぶことは間違いなくもっと楽しいのはJames-Steinの定理です。n独立した同じ分散を考えますが同じ平均ガウス確率変数ではありません

Xi|μiN(θi,σ2),i=1,,n

言い換えれば、我々は持っているnコンポーネントガウスランダムベクトルXN(θ,σ2I)。私たちは、一つのサンプル持っているから、我々は推定したい。MLE(およびUMVUE)推定量は、明らかにxXθθ M L E = Xθ^MLE=xです。James-Stein推定量を考えます

θ^JS=(1(n2)σ2||x||2)x

明らかに、あれば(n2)σ2||x||2θ J Sは収縮ゼロに向かってMLE推定を。ジェームズ・スタインの定理がためと述べているのn 4θ J S厳密に支配θ M L Eすなわち、より低いMSE持っθを。Pheraps驚くべきことに、我々は他の定数の方に縮小した場合でも、C 0 θ^JS n4θ^JS θ^MLE θc0θ^JSまだ支配 θ MLE。以来X私は独立しているが、それは奇妙に見えるかもしれない、私たちの見積もり向上する可能性があり、スペインで生産りんごの数のサンプルを含む3人の無関係の高さを推定しようとすると、平均を。ここでのキーポイントは「平均」です。パラメータベクトルのすべてのコンポーネントの同時推定の平均二乗誤差は小さくなりますが、1つ以上のコンポーネントの二乗誤差は大きくなる可能性があり、実際、 「極端な」観察があります。 θ^MLEXi

確かに単変量推定の場合の「最適な」推定器であるMLEが多変量推定のために廃止されたことは、当時かなり衝撃的であり、ML用語の正則化として知られている収縮に大きな関心をもたらしました。混合モデルと「借入力」の概念とのいくつかの類似点に注意することができます。ここで説明したように、確かに何らかのつながりがあります。

収縮に関する統一された見解:混合モデルにおけるスタインのパラドックス、リッジ回帰、およびランダム効果の関係(ある場合)とは何ですか?

参照:ジェームズ、W。、スタイン、C。、二次損失による推定。数学統計と確率に関する第4回バークレーシンポジウムの議事録、第1巻:統計理論への貢献、361--379、カリフォルニア大学出版局、バークレー、カリフォルニア、1961


主成分分析は次元削減の重要なトピックの鍵であり、特異値分解に基づいています:各N×p実行列X(定理は簡単に複雑な行列に一般化されますが)

X=UDVT

ここで、サイズN × pのUは直交し、Dは非負の対角要素を持つp × p対角行列であり、サイズp × pのUは再び直交します。計算方法の証明とアルゴリズムについては、Golub、G.、およびVan Loan、C.(1983)、Matrix computes、John Hopkins University press、Baltimoreを参照してください。N×pDp×pUp×p


マーサーの定理は、さまざまなMLメソッドの基礎です。薄板スプライン、サポートベクターマシン、ガウスランダムプロセスのクリギング推定などです。基本的に、いわゆるカーネルトリックの背後にある2つの定理の1つです。LET K(x,y):[a,b]×[a,b]R symmmetric連続関数またはカーネルです。場合K半正定値であり、それは非負の固有値に対応する固有関数のorthornormal基礎を認めています。

K(x,y)=i=1γiϕi(x)ϕi(y)

ML理論に対するこの定理の重要性は、ガウス過程に関するRasmussen&Williamsのテキストなど、有名なテキストで得られる参考文献の数によって証明されています

参照:J. Mercer、正および負のタイプの関数、および積分方程式の理論との関連。ロンドン王立協会の哲学的取引。シリーズA、数学または物理的特性の論文を含む、209:415-446、1909

コンラッド・ヨルゲンス、線形積分演算子、ピットマン、ボストン、1982年にも、より簡単なプレゼンテーションがあります。


マーサーの定理とともに、カーネルトリックの理論的基礎を示すもう1つの定理は、表現定理です。サンプル空間Xと対称正半正定核K:X×XRます。また聞かせてHK関連付けられたRKHSもK。最後に、S={xi,yi}i=1nトレーニングサンプルとします。定理は、すべての機能の中でそれを言うfHK、Mercerの定理により、Kの固有関数に関して無限の表現をすべて認めます。正規化されたリスクを最小化するものは、nトレーニングポイントで評価されるカーネルによって形成される基底に常に有限の表現を持ちます。

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(定理は最後の平等です)。参照:Wa​​hba、G。1990、観測データのスプラインモデル、SIAM、フィラデルフィア。


ユニバーサル近似定理は、すでにそれは一見とても思えないかもしれない場合でも、ユーザートビアスWindischが引用し、それが機能解析するよりも、機械学習にあまり関係がありました。問題は、定理がそのようなネットワークが存在することだけを言っているが、しかし:

  • 隠れ層のサイズNと、たとえばTotal Variationなどのターゲット関数f(x)の複雑さの尺度との間に相関関係はありません。場合f(x)=sin(ωx):[0,2π][1,1]N固定エラーのために必要なϵ growed指数関数とω、単一の隠れ層ニューラルネットワークは役に立たないであろう。
  • ネットワークF(x)学習可能であるかどうかは言いません。つまり、与えられたと仮定しfϵ、我々は大きさということを知っているN NNが近似するfハイパーキューブで必要な公差で。次に、サイズMトレーニングセット と、back-propなどの学習手順を使用して、Mを増やすことでFを回復できるという保証はありますか?
  • 最後に、さらに悪いことに、ニューラルネットワークの予測誤差については何も言及していません。私たちが本当に興味を持っているのは、サイズMすべてのトレーニングセットで少なくとも平均化された予測誤差の推定です。定理はこの点では役に立ちません。

この定理のHornik版の小さな問題点は、ReLUアクティベーション関数には当てはまらないことです。しかし、バートレットはその後、このギャップをカバーする拡張バージョンを証明しました。


今まで、私が考えたすべての定理は誰にもよく知られていました。それでは、楽しいものの時間です:-) ディープラーニングの定理をいくつか見てみましょう。

仮定:

  • 深いニューラルネットワークΦ(X,W)(固定のためのWΦW(X)その出力がニューラルネットワークの入力を関連付ける関数である)及び正則損失Θ(W)の両方の和である正均質機能同程度の
  • 損失関数L(Y,Φ(X,W)は凸であり、コンパクトなセットSXで微分可能になるS

次に:

  • 以下のための任意の極小値L(Y,Φ(X,W))+λΘ(W)のサブようΦ(X,W)ゼロの重みを有し、(大域的最小値である定理1
  • 重要なネットワークサイズを超えると、ローカル降下は初期化から常にグローバルな最小値に収束します(定理2)。

これは非常に興味深いです:畳み込み層、ReLU、最大プーリング、完全に接続されたReLUおよび線形層のみで構成されたCNNは正に同種の関数ですが、シグモイド活性化関数を含めると、これはもはや真実ではなく、部分的に優れているReLUの一部のアプリケーションでのパフォーマンス+シグモイドに関する最大プーリング。さらに、定理は、ΘΦと同程度のWで正に同次である場合にのみ成立します。さて、楽しい事実はある 、L 1またはL 2正則、積極的に均質なものの、同程度の必要はありませんΦを度(ΦΦl1l2ΦΦ、前述の単純なCNNの場合、層の数とともに増加します)。代わりに、バッチ正規化やパスSGDなどのより新しい正則化方法は、Φと同程度の正に均質な正則化関数に対応し、ドロップアウトは、このフレームワークに正確に適合しませんが、それに強い類似性を保持します。これは、CNNで高い精度を得るために、l1およびl2正規化では十分ではない理由を説明するかもしれませんが、ドロップアウトやバッチ正規化など、あらゆる種類の悪魔的なトリックを使用する必要があります!私の知る限り、これはバッチ正規化の有効性の説明に最も近いものです。そうでなければ、アル・ラヒミの講演で正しく指摘されているように、それは非常にあいまいです。

定理1に基づいて作成する別の観察結果は、死んだニューロンの問題があってもReLUがうまく機能する理由を説明できることです。この直観によると、トレーニング中に、ReLUニューロンの一部が「死ぬ」(x<0の場合はReLUの勾配がゼロであるため、ゼロアクティベーションになり、その後回復しない)という事実は、「バグではなく機能」です。 「最小値に達し、サブネットワーク全体が死んだ場合、定理1の仮説の下で、グローバルな最小値に到達した可能性があるためです。)。私は何かを見逃しているかもしれませんが、この解釈は非常に難しいと思います。まず、トレーニング中に、ReLUはローカルミニムに到達するかなり前に「死ぬ」ことがあります。第二に、ReLUユニットが「死ぬ」とき、彼らは常に完全なサブネットワーク上でそれを行うことを証明する必要があります:これが些細なことである唯一のケースは、あなたが1つの隠されたレイヤーだけを持っているときです。サブネットワーク。しかし、一般的に私は「死んだニューロン」を良いものと見ることに非常に慎重です。

参照:

B. HaeffeleおよびR. Vidal、ニューラルネットワークトレーニングにおけるグローバル最適性、 IEEE Con​​ference on Computer Vision and Pattern Recognition、2017年

B.ヘッフェレとR.ヴィダル。テンソル因数分解、ディープラーニング、およびそれ以上のグローバル最適性、arXiv、abs / 1506.07540、2015年。


画像分類には、位置、姿勢、視点、照明、表情などの一般的な自然画像に存在するが情報を含まないさまざまな変換に対して不変(または少なくともロバスト、つまり非常に弱い感度)の学習表現が必要です。分類タスク用。音声認識でも同じことが言えます。ピッチ、音量、ペース、アクセントの変化。などは、単語の分類の変更につながるべきではありません。CNNで使用される畳み込み、最大プーリング、平均プーリングなどの操作にはまさにこの目標があるため、直感的にはこれらのアプリケーションで機能すると期待しています。しかし、この直感をサポートする定理はありますか?ある垂直並進不変性定理は、、名前にもかかわらず、垂直方向の翻訳とは関係ありませんが、基本的には、レイヤーの数が増えるにつれて、後続のレイヤーで学習された機能がますます不変になるという結果です。これは、散乱ネットワークには当てはまるがCNNには当てはまらない古い水平並進不変性定理とは反対です。ただし、定理は非常に技術的です。

  • f(入力画像)が平方可積分であると仮定します
  • フィルタが変換演算子Ttで通勤すると仮定します。この演算子は、入力画像fをそれ自体の翻訳されたコピーTtfマッピングします。学習された畳み込みカーネル(フィルター)は、この仮説を満たします。
  • ネットワーク内のすべてのフィルター、非線形性、およびプーリングが、いわゆる弱い許容性条件を満たしていると仮定します。これは基本的に、ある種の弱い規則性と境界条件です。これらの条件は、学習された畳み込みカーネル(各層で正規化操作が実行される限り)、ReLU、シグモイド、tanhなど、非線形性、および平均プーリングによって満たされますが、最大プーリングによっては満たされません。そのため、実際のCNNアーキテクチャの一部(すべてではない)をカバーしています。
  • nSn>1Sn1

Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(トリプルバーはエラーではありません)これは、基本的に、各層がますます不変になる機能を学習し、無限に深いネットワークの制限で完全に不変のアーキテクチャを持っていることを意味します。CNNは有限数のレイヤーを持っているため、完全に翻訳不変ではありません。これは開業医によく知られています。

参考:T. WiatowskiとH. Bolcskei、特徴抽出のためのディープ畳み込みニューラルネットワークのA数学理論、arXivの:1512.06293v3


結論として、Vapnik-Chervonkensis次元またはRademacherの複雑さに基づくDeep Neural Networkの一般化エラーの多数の境界は、パラメーターの数(指数関数的でさえある)とともに大きくなり、DNNがうまく機能する理由を説明できない実際には、パラメータの数がトレーニングサンプルの数よりかなり大きい場合でもです。実際のところ、VC理論はディープラーニングではあまり有用ではありません。

1δ

GE2log2NyNγm+2log(1/δ)m

どこ:

  • GE
  • Ny
  • m
  • Nγ

J.ソコリ、R。ギリーズ、G。サピロ、M。ロドリゲス。不変分類子の一般化エラー。AISTATS、2017年


2
+1。素晴らしい答え、最後の部分は非常に興味深いものです。最初の部分では、Mercerの定理は、先ほど説明したSVDのように見えます。
アメーバは、モニカを復活させる

1
@amoeba、あなたは正しいですが、1)すべての読者があなたと同じくらい数学に精通しているわけではありません。SVD、Karhunen-Loeve拡張、およびMercerの定理の間の類似性をすぐに認識するでしょう。また、2)カーネルトリックを「強化する」機能分析からのもう1つの定理は、Mercerの定理よりも説明するのが難しく、すでに土曜日を破りました:-)多分明日追加します!
DeltaIV

1
ガウス・マルコフは場違いのように見えますが、MLコミュニティでBLUEを気にかける人は誰もいません。
カルロスチネリ

2
原則として、元の(古風な)参照は通常、面倒な表記法であることに同意します。そうは言っても、マーサーの論文は実際にはその点で驚くほど現代的であり、まさにそのために私はそれを追加しました。:)(私はこの非常に良い答え、もともと言った、これはupvote後にちょうど解説です)
usεr11852は回復モニック言う

2
ここでマーサーの定理が好きです、削除しないでください。そして、なぜ両方のリンクがないのですか?See [here] for a modern exposition「元の紙のために」のようなsmthを追加するだけです。
アメーバは、モニカを復活させる

11

あなたがほのめかしている次の定理は、統計的学習のかなり基本的なものと考えられています。

HX{0,1}01

  1. H
  2. H
  3. H

ここで定量的なバージョンで証明されました:

VN VapnikとAY Chervonenkis:イベントの相対頻度の確率への均一な収束について。確率論とその応用、16(2):264–280、1971

上で定式化されたバージョンは、学習理論からの他の結果の素晴らしい説明とともにここから入手できます

Shalev-Shwartz、Shai、およびShai Ben-David。機械学習の理解:理論からアルゴリズムまで。ケンブリッジ大学出版局、2014年。


6

カーネルトリックは、多くの場所で使用されている一般的なアイデアであり、ヒルベルトスペースに関する多くの抽象的な数学に基づいています。ここで答えを入力(コピー...)するにはあまりにも多くの理論がありますが、これをざっと読んだ場合、その厳格な基盤の良いアイデアを得ることができます:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf


4

私のお気に入りはクラフトの不平等です。

定理:有限アルファベットの記述方法CA={1,,m}LC(1),,LC(2)xA2LC(x)1

この不等式は、圧縮確率密度に関連付けます。コードが与えられた場合、そのコードによって表される結果の長さは、コードによって識別されるモデルの負の対数確率です。

さらに、機械学習の無料昼食定理には、あまり圧縮されていない定理の兄弟であるあまり知られていません。


4

私はそれを定理とは呼びませんが、フィードフォワードニューラルネットワークの近似力を述べているので、以下(ユニバーサル近似定理と呼ばれることもある)は興味深い(そして少なくとも私にとっては驚くべき)ものだと思います。

定理:σf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
x[0,1]m

もちろん、これは存在に関する声明であるため、実践者への影響はごくわずかです。

証明は、 Hornik、Muitilayer Feedforward Networksの近似能力、Neural Networks 4(2)、1991年にあります。


5
この定理は、ニューラルネットに固有のものではないため、少し面白くありません。他の多くのクラスの関数は、類似の(そしてより強力な)近似プロパティを共有します。たとえば、Stone-Weierstrass定理を参照してください。より興味深い結果は、一般的なフレームワークでのニューラルネット回帰の一貫性です。また、ネットの複雑さとトレーニングサンプルのサイズの観点から、平均の一般化誤差には既知の境界が必要です。
オリビエ

1
@オリビエ:私は完全に同意します。しかし、この定理はニューラルネットワーク専用ではありませんが、それでもステートメント、厳密な証明、およびその意味が興味深いと思います。たとえば、上記のプロパティを持つアクティベーション関数を使用している限り、ネットワークのおおよその機能は同じだと言います(大まかに言って)。または、1つの隠れ層ですでに多くのことを学ぶことができるので、ニューラルネットワークは過剰適合を避けることになります。
トバイアスウィンディッシュ

1
正確には言っていません。そこにあるだけだfNmflearnN
DeltaIV

@DeltaIV:以前のコメントの最後の文にタイプミスがあります。「学習」という言葉は実際には「近似」である必要があります(そうでなければ、「オーバーフィット」に関する私の声明は意味をなさないでしょう)。ヒントをありがとう!
トビアスウィンディッシュ

はい、私はそれを「近似する」という意味で解釈しました。私のポイントは、理論上、1つの隠れ層NNで(有界ハイパーキューブ上の)関数を近似できることがわかっていても、実際には多くの場合役に立たないということです。別の例:二乗指数カーネルを持つガウス過程は普遍的な近似特性を持っていますが、いくつかの問題では正確な近似に必要なサンプルの数が指数関数的に増加するという事実のために、他のすべての回帰方法を排除していません。
DeltaIV

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.