一連の独立した観測 が与えられたことを理解してい最尤推定(または、平坦と同等に、MAP /均一前)ことを識別するパラメータ\ mathbf {θ}モデル分布生成 P_ {モデル} \ これらの観測に最もよく一致するleft(\、\ cdot \、; \ mathbf {θ} \ right)は、
または、より便利に
その役割を参照、マルチクラスの深いニューラルネットワークを損失関数を定義する際に再生することができますがこれでネットワークのトレーニング可能パラメータ(例えば、に相当すると観測は、入力アクティベーションと対応する正しいクラスラベル、\ mathbf {oのペアです。} ^ {(i)} = { }
私が理解していないのは、これが(ベクトル化された)正しい出力いわゆる「クロスエントロピー」と、ネットワークの対応する出力アクティベーション トレーニング中にエラー/損失を測定する場合、実際に使用されています。関連する問題がいくつかあります。
「確率として」のアクティベーション
MLEとクロスエントロピーの関係を確立する手順の1つは、出力アクティベーションを確率であるかのように使用することです。しかし、それらがそうであるか、少なくともがそうであるかは、私には明らかではありません。
トレーニングエラーを計算する際、具体的には「クロスエントロピー損失」と呼ぶ場合、(アクティベーションを合計して1に正規化した後)と見なされます。
または
書けるように
したがって
しかし、これは確かに(何かがある程度確率にする一方で、他のアクティベーションに制限はありません。
その場合、本当にPMFであると言えますか?作るものがありではない彼ら"のような"実際の確率(及び単にで)?
分類の制限
上記のMLEをクロスエントロピーと同等にする重要な手順は、(単一ラベルの)マルチクラス学習問題を特徴付けるの「ワンホット」構造に完全に依存しています。他の構造は、からに取得することを不可能にします。
MLEの方程式とクロスエントロピーの最小化は、が「ワンホット」である場合に限定されますか?
さまざまなトレーニングおよび予測確率
予測中、ほとんどの場合、
これにより、トレーニング中に学習された確率とは異なる正しい予測確率が得られます。
これはこれまでに確実に当てはまりますか?それは少なくともほぼ本当ですか?または、ラベル位置での学習されたアクティベーションの値のこの方程式を、学習されたアクティベーションの最大値がそこで発生する確率で正当化する他のいくつかの引数がありますか?
エントロピーと情報理論
上記の懸念事項に対処し、アクティベーションが有効なPMFである(または意味のあるものとして扱うことができる)と仮定しても、計算で クロスエントロピーが果たす役割は問題にならないため、明確ではありません。のエントロピーについて話すことは、なぜ役立つか意味があるのか、シャノンのエントロピーは特定の一種のエンコーディング。ネットワークのトレーニングに使用されているエンコーディングではありません。
MLEに対応するツールを計算するためのツールを(クロスエントロピーの形で)単に提供するのではなく、コスト理論を解釈する上で情報理論的エントロピーはどのような役割を果たしますか?
softmax_cross_entropy_with_logits
です。これらはを計算します 、したがっては、(少なくともラベルの場所で)確率を生成するように「設計された」ネットワークを定義します。番号?