ディープラーニングにおけるMLEとクロスエントロピーの関係はどの程度意味がありますか?
一連の独立した観測 が与えられたことを理解してい最尤推定(または、平坦と同等に、MAP /均一前)ことを識別するパラメータ\ mathbf {θ}モデル分布生成 P_ {モデル} \ これらの観測に最もよく一致するleft(\、\ cdot \、; \ mathbf {θ} \ right)は、mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) または、より便利に θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) その役割を参照θMLθML\mathbf{θ}_{ML}、マルチクラスの深いニューラルネットワークを損失関数を定義する際に再生することができますがこれでθθ\mathbf{θ}ネットワークのトレーニング可能パラメータ(例えば、に相当するθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )と観測は、入力アクティベーションxx\mathbf{x}と対応する正しいクラスラベルy∈[1,k]y∈[1,k]y \in [1, k]、\ mathbf {oのペアです。} ^ {(i)}o(i)o(i)\mathbf{o}^{(i)} = { …