平均二乗誤差が経験的分布とガウスモデル間のクロスエントロピーであるのはなぜですか?


28

5.5では、ディープラーニング(イアングッドフェロー、ヨシュアベンジオ、アーロンクールビル)が、

負の対数尤度で構成される損失は、トレーニングセットで定義された経験的分布とモデルで定義された確率分布の間の相互エントロピーです。たとえば、平均二乗誤差は経験的分布とガウスモデルの間の相互エントロピーです。

なぜそれらが同等なのか理解できず、著者はその点については拡張していません。

回答:


32

データをます。書き込み経験的分布のために。定義により、任意の関数、x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

モデルに密度持たせますここで、はモデルのサポートで定義されます。クロスエントロピーのとあると定義されます。Mef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

が単純なランダムサンプルであると仮定すると、その負の対数尤度はx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

対数の特性により(それらは積を合計に変換します)。式は、式倍の定数です。損失関数は統計で比較することによってのみ使用されるため、一方が他方の(正の)定数倍であることには違いはありません。この意味で、負の対数尤度は引用のクロスエントロピー「である」ということです。(2)n(1)


引用の2番目のアサーションを正当化するには、もう少し想像力が必要です。平方誤差の関係は明らかです。なぜなら、点で値を予測する「ガウスモデル」の場合、そのような点でのの値はp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

これは二乗誤差が、によって再スケーリングされ関数によってシフトされます。 引用を正しくする1つの方法は、「モデル」の部分を考慮しないと仮定することです。は、データとは無関係に決定する必要があります。その場合、の平均二乗誤差との間は、に比例するそれによってモデルフィッティングの目的のために、3つのすべての等価物を作る、クロスエントロピー又は対数尤度の間です。(xp(x))2 1/(2σ2)σσσ

(ただし、通常、はモデリングプロセスの一部として適合します。この場合、引用は完全に正しくありません。)σ=σ(x)


1
2つの提案がある+1-代わりに使用して、との混乱を避けることができます。2番目は、ほとんどの推定値がです。これを接続して追加すると、。... AIC型の式と同様にg()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
probabilityislogic

@probabilityislogicとのペアを選択します。これら密接に関連する量を表すからです。Ff
whuber

こんにちは、これは線形分布にのみ適用されると思います。非線形分布問題では、コスト関数としてMSEを使用できると思いますか?
ライオンライ

5

ディープラーニングの本の読者のために、著者はセクション5.5.1でステートメントを詳細に説明している優れた受け入れられた答え、例:最尤としての線形回帰を追加したいと思います。

そこで、彼らは受け入れられた答えで言及された制約を正確にリストします:

p(y|x)=N(y;y^(x;w),σ2)。関数は、ガウス平均の予測を提供します。この例では、分散はユーザーが選択した定数固定されていると仮定しています。y^(x;w)σ2

次に、MSEの最小化が最尤推定に対応し、したがって経験的分布と間のクロスエントロピーの最小化に対応することを示します。p(y|x)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.