ベイジアンディープラーニングとは何ですか？

13

ベイジアンディープラーニングとは何ですか？また、従来のベイジアン統計および従来のディープラーニングとどのように関連していますか？

関係する主な概念と数学は何ですか？それは単なるノンパラメトリックベイジアン統計と言えますか？現在の主要な開発およびアプリケーションと同様に、その独創的な作品は何ですか？

PS：Bayesian Deep Learningは大きな注目を集めています。NIPSワークショップをご覧ください。

bayesian deep-learning

— 統計学者
ソース

10

NIPSワークショップリンクを離れて、Yee Whye TehはNIPSでBayesian Deep Learningで基調講演を行いました（ビデオ：https ://www.youtube.com/watch?v=LVBvJsTr3rg、スライド：http：//csml.stats。 ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/）。講演のある時点で、Tehはベイジアンのディープラーニングを、ベイジアンフレームワークをディープラーニングからのアイデアに適用すること（ニューラルネットワークの重みに対する事後学習など）、およびディープベイジアンラーニングをディープラーニングからのアイデアに適用することとして要約したと思いますベイジアンフレームワーク（深いガウス過程または深い指数関数族のような）。もちろん、バリエーションオートエンコーダーのように、2つの概念の境界線をまたぐアイデアがあります。ほとんどの人がベイジアンディープラーニングと言うとき、それらは通常2つのうちのいずれかを意味し、それはあなたがリンクしたワークショップ（昨年のワークショップとともに）で受け入れられた論文に反映されます。アイデアは、90年代のニューラルネットワークのベイジアン学習に関するNealの研究に戻ります（http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf）、そしてそれ以来長年にわたって研究が行われてきました。オリジナルの変分オートエンコーダーペーパー（https://arxiv.org/pdf/1312.6114.pdf）。

— 灰化
ソース

10

最初に、従来のベイジアンニューラルネットワークの基礎となる確率モデルとは何かをよく理解することをお勧めします。以下では、いくつかの用語を太字で記載します。これらの用語をグーグルで検索して、より詳細な情報を見つけてください。これは基本的な概要です。役に立てば幸いです。

のがの場合を考える回帰におけるフィードフォワードニューラルネットワークを、いくつかの表記法を確立します。

ましょうにおける予測子の値を示す入力層。値単位で内層はによって表記するのために、。最後に、出力レイヤーます。 $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

レイヤーユニットの重みとバイアスは、場合、それぞれとで示されます。、および。 $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

ましょうである活性化機能ユニットの層におけるため、と。 $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

一般的に使用されるアクティベーション関数は、ロジスティック、ReLU（別名ポジティブパート）、およびtanhです。

今、のため、層の遷移関数を定義 $\ell=1,\dots,L$ 中

G^{（ ℓ ）} ： R^{N_{ℓ - 1}} \to R^{N_{ℓ}} ： （ z_{1}^{（ ℓ - 1 ）} 、 \dots 、 z_{N_{ℓ - 1}}^{（ ℓ - 1 ）} ） \mapsto （ z_{1}^{（ ℓ ）} 、 \dots 、 z_{N_{ℓ}}^{（ ℓ ）} ） 、

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

のための

。

z_{私}^{（ ℓ ）} = g_{私}^{（ ℓ ）} （ \sum_{j = 1}^{N_{ℓ - 1}} w_{私 j}^{（ ℓ ）} z_{j}^{（ ℓ - 1 ）} + b_{私}^{（ ℓ ）} ） 、

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

全ての層における全てのユニットの重みとバイアスのセットを示す、ある $\theta$ 我々のニューラルネットワークは、機能のファミリーである層の遷移関数の組成によって得られる：

θ = {w_{私 j}^{（ ℓ ）} 、 b_{私}^{（ ℓ ）} ： ℓ = 1 、 \dots 、 L; 私 = 1 \dots 、 N_{ℓ}; j = 1 、 \dots 、 N_{ℓ - 1}} 、

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

G_{θ} = G^{（ L ）} \circ G^{（ L - 1 ）} \circ \dots \circ G^{（ 1 ）} 。

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

上記の説明に関係する確率はありません。元のニューラルネットワークビジネスの目的は、関数フィッティングです。

ディープラーニングの「深い」とは、検討中のニューラルネットワークに多くの内部層が存在することを意味します。

$\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

\sum_{私 = 1}^{n} ‖ y_{私} - G_{θ} （ {バツ}_{私} ） ‖^{2} 、

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ 目的関数へのペナルティ、またはトレーニング中のドロップアウトの使用など。Geoffrey Hinton（別名Deep Learning Godfather）と共同研究者は、これらの多くを発明しました。ディープラーニングの成功事例はどこにでもあります。

L_{バツ 、 y} （ θ 、 σ^{2} ） \propto σ^{- n} \exp （ - \frac{1}{2 σ^{2}} \sum_{私 = 1}^{n} ‖ y_{私} - G_{θ} （ {バツ}_{私} ） ‖^{2} ） 、

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π （ θ 、 σ^{2} ） \propto \exp （ - \frac{1}{2 σ_{0}^{2}} \sum_{ℓ = 1}^{L} \sum_{私 = 1}^{N_{ℓ}} （ {（ b_{私}^{（ ℓ ）} ）}^{2} + \sum_{j = 1}^{N_{ℓ - 1}} {（ w_{私 j}^{（ ℓ ）} ）}^{2} ） ） \times π （ σ^{2} ） 。

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

$\sigma_0^2$

ベイジアンディープラーニングは、対応する事後分布からのサンプリングという難しいタスクに直面しています。これが達成された後、事後予測分布で予測が自然に行われ、これらの予測に含まれる不確実性が完全に定量化されます。Bayesian Deep Learningの聖杯は、効率的でスケーラブルなソリューションの構築です。このクエストでは、Metropolis-Hastings and Gibbsサンプリング、ハミルトニアンモンテカルロ、さらに最近では変分推論など、多くの計算手法が使用されています。

いくつかのサクセスストーリーのためNIPS会議のビデオをチェックアウト：http://bayesiandeeplearning.org/

— 禅
ソース