背景: Ian Goodfellow、Yoshua Bengio、Aaron Courvilleによるディープラーニングの第6章を勉強しています。セクション6.2.2.2(ここで表示できる 183/183ページ)では、を出力するためのシグモイドの使用が動機付けられています。
一部の材料を要約すると、アクティブ化が適用される前の出力ニューロンとし、は前の非表示層の出力、は重みのベクトル、はスカラーバイアスです。入力ベクトルは(は関数)で示され、出力値はで示されます。ここで、はシグモイド関数です。この本は、値を使用して確率分布を定義したいと考えています。183ページの2番目の段落から:
ここでは、値を使用して確率分布を定義する方法を説明するために、への依存を省略します。シグモイドは、合計が1にならない非正規化確率分布作成することによって動機づけることができます。次に、適切な定数で除算して、有効な確率分布を取得できます。非正規化対数確率がとで線形であるという仮定から始める場合、非正規化確率を得るためにべき乗できます。次に、正規化して、zのシグモイド変換によって制御されるベルヌーイ分布が得られることを確認します。
質問: 2つのこと、特に最初のことについて混乱しています。
- 最初の仮定はどこから来るのですか?なぜ非正規化対数確率はと線形なのですか?作者がでどのように始めたかについて誰かが私にいくつかの状況を教えてもらえますか?
- 最後の行はどのように続きますか?