と線形化された非正規化対数確率で始まるニューラルネットワークのシグモイド出力単位の動機付け

12

背景： Ian Goodfellow、Yoshua Bengio、Aaron Courvilleによるディープラーニングの第6章を勉強しています。セクション6.2.2.2（ここで表示できる 183/183ページ）では、を出力するためのシグモイドの使用が動機付けられています。 $P(y=1|x)$

一部の材料を要約すると、アクティブ化が適用される前の出力ニューロンとし、は前の非表示層の出力、は重みのベクトル、はスカラーバイアスです。入力ベクトルは（は関数）で示され、出力値はで示されます。ここで、はシグモイド関数です。この本は、値を使用して確率分布を定義したいと考えています。183ページの2番目の段落から：

z = w^{T} h + b

$z = w^Th+b$

h

$h$

w

$w$

b

$b$

x

$x$

h

$h$

y = ϕ (z)

$y=\phi(z)$

ϕ

$\phi$

y

$y$

z

$z$

ここでは、値を使用して確率分布を定義する方法を説明するために、への依存を省略します。シグモイドは、合計が1にならない非正規化確率分布作成することによって動機づけることができます。次に、適切な定数で除算して、有効な確率分布を取得できます。非正規化対数確率がとで線形であるという仮定から始める場合、非正規化確率を得るためにべき乗できます。次に、正規化して、zのシグモイド変換によって制御されるベルヌーイ分布が得られることを確認します。 $x$ $y$ $z$ $\tilde P(y)$ $y$ $z$
$\begin{aligned} \log \tilde{P} (y) & = y z \\ \tilde{P} (y) & = \exp (y z) \\ P (y) & = \frac{\exp (y z)}{\sum_{y^{'} = 0}^{1} \exp (y^{'} z)} \\ P (y) & = ϕ ((2 y - 1) z) \end{aligned}$ $\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align}$

質問： 2つのこと、特に最初のことについて混乱しています。

最初の仮定はどこから来るのですか？なぜ非正規化対数確率はと線形なのですか？作者がでどのように始めたかについて誰かが私にいくつかの状況を教えてもらえますか？ $y$ $z$ $\log\tilde P(y) = yz$
最後の行はどのように続きますか？

neural-networks deep-learning

— HBeel
ソース

8

は2つの結果が考えられます。このプロパティは乗算の意味を変更するため、これは非常に重要です。次の2つのケースが考えられます。 $y \in \{0, 1\}$

\begin{aligned} \log \tilde{P} (y = 1) & = z \\ \log \tilde{P} (y = 0) & = 0 \end{aligned}

$\begin{align} \log\tilde P(y=1) &= z \\ \log\tilde P(y=0) &= 0 \\ \end{align}$

さらに、正規化されていない対数確率は一定であることに注意してください。このプロパティは、主な前提から派生しています。定数値に確定関数を適用すると、一定の出力が生成されます。このプロパティは、可能性のあるすべての確率で正規化を行う場合の最終的な式を簡略化します。なぜなら、場合は正規化されていない確率のみを知り、の場合は常に一定だからです。また、ネットワークからの出力は正規化されていない対数確率であるので、必要な出力は1つだけです。 $y=0$ $y=1$ $y=0$

次に、正規化されていない確率を得るために、正規化されていない対数確率に指数を適用します。

\begin{aligned} \tilde{P} (y = 1) & = e^{z} \\ \tilde{P} (y = 0) & = e^{0} = 1 \end{aligned}

$\begin{align} \tilde P(y=1) &= e ^ z \\ \tilde P(y=0) &= e ^ 0 = 1 \end{align}$

次に、各正規化されていない確率を可能なすべての正規化されていない確率の合計で割って、確率を正規化します。

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} \\ P (y = 0) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} \\ P(y=0) = \frac{1}{1 + e ^ z} \end{align}$

シグモイド関数からの確率が意味するので、のみに関心があります。得られた関数は、最初の見た目ではシグモイドのようには見えませんが、それらは等しく、簡単に表示できます。 $P(y=1)$

\begin{aligned} P (y = 1) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{\frac{e^{x} + 1}{e^{x}}} = \frac{1}{1 + \frac{1}{e^{x}}} = \frac{1}{1 + e^{- x}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ x}{1 + e ^ x} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{1 + e ^ {-x}} \end{align}$

最後のステートメントは最初は紛らわしいかもしれませんが、それはその最終確率関数がシグモイドであることを示すための単なる方法です。値変換にとの（または私達はそれをそのままだろうと言うことができます）。 $(2y−1)$ $0$ $-1$ $1$ $1$

P (y) = σ ((2 y - 1) z) = {\begin{cases} σ (z) = \frac{1}{1 + e^{- z}} = \frac{e^{z}}{1 + e^{z}} & when y = 1 \\ σ (- z) = \frac{1}{1 + e^{- (- z)}} = \frac{1}{1 + e^{z}} & when y = 0 \end{cases}

$P(y) = \sigma((2y - 1)z) = \begin{cases} \sigma(z) = \frac{1}{1 + e ^ {-z}} = \frac{e ^ z}{1 + e ^ z} & \text{when } y = 1 \\ \sigma(-z) = \frac{1}{1 + e ^ {-(-z)}} = \frac{1}{1 + e ^ z} & \text{when } y = 0 \\ \end{cases}$

ご覧のとおり、これはと関係を示す方法にすぎません $\sigma$ $P(y)$

— itdxer
ソース

「さらに、正規化されていない対数確率は一定であることに注意してください。この特性は主な仮定から派生しています。」既に決定しているという前提です。

y = 0

$y=0$

y = 1

$y=1$

— HBeel 2017年

私の混乱は、実際のラベルに関係なく、シグモイドがモデルのの確率を与えるという事実から生じたと思います。ありがとう！

y = 1

$y=1$

— HBeel 2017年

ここで太いという意味ではありませんが、とはどのように線形です。私はという形の何かを期待し。私がいることを実感製品の近い直線に私を取るだろうが、それは著者が述べたものとは直接的ではないようです合計をもたらすであろう。

y \times z

$y\times z$

y

$y$

z

$z$

a y + b z + c

$ay + bz + c$

\log

$\log$

y z

$yz$

— Zebullon 2017

なるほど、それは実に興味深い質問です。初めて質問を読んだとき、私はこの声明に注意を払いませんでした。今では私にも奇妙に見えます。1つの問題は、yバイナリ変数であり、これらの状況で線形関数のプロパティを確認する方法がわかりません。別の質問をすることは理にかなっていると思います。おそらく、このように書かれた理由を誰かが説明できるでしょう。

— itdxer 2017

2

また、この本の一部をたどるのは難しいと思います。上記のitdxerの答えは、確率と数学の考え方に精通していない人にとっても、理解するのにかなりの時間を割く価値があります。ただし、答えを逆に読んで作成したので、zのシグモイドから始めます。

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1 + e^{- z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} = \frac{1}{1 + e ^ {-z}} \end{align}$

そしてフォローしてみてください。

\begin{aligned} \log \tilde{P} (y) & = y z \end{aligned}

$\begin{align} \log\tilde P(y) &= yz \end{align}$

次に、彼らがyzで説明を始めた理由は理にかなっています-これは仕様によるもので、最終版と同じです

\begin{aligned} σ ((2 y - 1) z) \end{aligned}

$\begin{align} \sigma((2y-1)z) \end{align}$

構成により、ベルヌーイの下でyに可能な唯一の値である、y = 0の場合は-1、y = 1の場合は1を取得できます。

— ヤクブ・ジュレク
ソース

0

以下は、メジャー理論的な背景を持つ人々にアピールする、より正式な表現です。

LETベルヌーイのRVであるとせ pushforward尺度を表し、IE用、およびlet表し、その正規化されていない対応します。 $Y$ $P_Y$ $y\in \{0,1\}$ $P_Y(y)=P(Y=y)$ $\tilde P_Y$

以下の一連の影響があります。

\begin{aligned} \log {\tilde{P}}_{Y} (y) = y z & ⟹ {\tilde{P}}_{Y} (y) = \exp (y z) \\ ⟹ P_{Y} (y) = \frac{e^{y z}}{e^{0 \cdot z} + e^{1 \cdot z}} = \frac{e^{y z}}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y \frac{e^{z}}{1 + e^{z}} + (1 - y) \frac{1}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y σ (z) + (1 - y) σ (- z) \\ ⟹ P_{Y} (y) = σ ((2 y - 1) z) \end{aligned}

$\begin{aligned} \log \tilde P_Y(y)=yz &\implies \tilde P_Y(y) = \exp(yz)\\ &\implies P_Y(y) = \frac{e^{yz}}{e^{0\cdot z}+e^{1\cdot z}}=\frac{e^{yz}}{1+e^{ z}}\\ &\implies P_Y(y) =y\frac{e^{z}}{1+e^{ z}} + (1-y)\frac{1}{1+e^{ z}}\\ &\implies P_Y(y) =y\sigma(z) + (1-y)\sigma(-z)\\ &\implies P_Y(y) = \sigma((2y-1)z) \end{aligned}$

最後の等式は、をにマッピングするスマートな方法です $\{0,1\}$ $\{-1,1\}$

— ガブリエルロモン
ソース