回答:
クロスエントロピーの最小化とKL発散の最小化の間の同等性を主張するには、いくつかの条件が必要になります。あなたの質問を、損失関数として交差エントロピーを使用した分類問題のコンテキストの下に置きます。
最初に、エントロピーがシステムの不確実性を測定するために使用されることを思い出してください。これは、として定義され
のための異なる状態の確率はとしてシステムの。情報理論の観点から見ると、は不確実性を取り除くために必要な情報量です。
たとえば、イベントA I will die eventually
はほぼ確実です(多分wordのエージング問題を解決できるでしょうalmost
)。したがって、それはエントロピーが低くthe aging problem cannot be solved
、それを確実にするための情報のみを必要とします。ただし、イベントB The president will die in 50 years
はAよりもはるかに不確実であるため、不確実性を取り除くにはより多くの情報が必要です。
今イベントAとBとの間のKLダイバージェンスの定義を見て
ここで、右側の最初の項はイベントAのエントロピー、2番目の項はイベントAに関するイベントBの期待値として解釈できます。は、Aの観点から、BがAとどのように異なるかを示します。
クロスエントロピーをエントロピーとKL発散に関連付けるには、クロスエントロピーをイベントAおよびBの観点からとして形式化し
定義から、
が定数の
場合、を最小化することはを最小化することと同じです。
エントロピーが定数になる可能性があるため、別の質問が自然に続きます。機械学習タスクでは、解決する問題を表すデータセット(と表示)から始めます。学習の目的は、モデルの推定分布()をできるだけ近くすることです可能な限り問題の真の分布(として示される)。
は不明であり、表されます。したがって、理想的な世界では、を期待し、
を最小化します。そして幸運なことに、実際には