回答:
データをます。書き込み経験的分布のために。定義により、任意の関数、
モデルに密度持たせますここで、はモデルのサポートで定義されます。クロスエントロピーのとあると定義されます。
が単純なランダムサンプルであると仮定すると、その負の対数尤度は
対数の特性により(それらは積を合計に変換します)。式は、式倍の定数です。損失関数は統計で比較することによってのみ使用されるため、一方が他方の(正の)定数倍であることには違いはありません。この意味で、負の対数尤度は引用のクロスエントロピー「である」ということです。
引用の2番目のアサーションを正当化するには、もう少し想像力が必要です。平方誤差の関係は明らかです。なぜなら、点で値を予測する「ガウスモデル」の場合、そのような点でのの値は
これは二乗誤差が、によって再スケーリングされ、関数によってシフトされます。 引用を正しくする1つの方法は、「モデル」の部分を考慮しないと仮定することです。は、データとは無関係に決定する必要があります。その場合、差の平均二乗誤差との間は、に比例する差それによってモデルフィッティングの目的のために、3つのすべての等価物を作る、クロスエントロピー又は対数尤度の間です。
(ただし、通常、はモデリングプロセスの一部として適合します。この場合、引用は完全に正しくありません。)
ディープラーニングの本の読者のために、著者はセクション5.5.1でステートメントを詳細に説明している優れた受け入れられた答え、例:最尤としての線形回帰を追加したいと思います。
そこで、彼らは受け入れられた答えで言及された制約を正確にリストします:
。関数は、ガウス平均の予測を提供します。この例では、分散はユーザーが選択した定数固定されていると仮定しています。
次に、MSEの最小化が最尤推定に対応し、したがって経験的分布と間のクロスエントロピーの最小化に対応することを示します。