回答:
答えは「はい」ですが、正しい方法で定義する必要があります。
クロスエントロピーは、単一の値ではなく確率分布で定義されます。離散分布およびの場合:
クロスエントロピー損失が「ハード」クラスラベルで使用される場合、これが実際に意味することは、をクラスラベルの条件付き経験的分布として扱うことです。これは、観測されたクラスラベルの確率が1、その他すべての確率が0の分布です。は、分類器によって学習された条件付き分布(入力が与えられたクラスラベルの確率)です。入力がでクラスが単一の観測データポイントの場合、上記の式が標準の対数損失(すべてのデータポイントで平均化される)に減少することがわかります。
ここで、はインジケーター関数で、引数がtrueの場合は1、それ以外の場合は0です(これは経験的分布が行っていることです)。合計は、可能なクラスラベルのセットから引き継がれます。
あなたが言及するような「ソフト」ラベルの場合、ラベルはもはやクラス自体ではなく、2つの可能なクラスにわたる確率です。このため、ログ損失には標準の式を使用できません。ただし、クロスエントロピーの概念は引き続き適用されます。実際、この場合はさらに自然に見えます。
0または1 のクラス呼び出します。ソフトラベルが、クラスが1である確率(対応する入力与えられた場合を与えるとします。したがって、ソフトラベルは確率分布を定義します。
分類子は、入力が与えられると、クラスの分布も与えます。
ここで、は、入力与えられた場合に、クラスが1であるという分類器の推定確率です。
ここでの課題は、クロスエントロピーを使用して、これら2つの分布がどの程度異なるかを判断することです。上記のと式をクロスエントロピーの定義に組み込みます。合計は、可能なクラスのセット取得され。
これは、単一の観測されたデータポイントの式です。損失関数は、すべてのデータポイントの平均になります。もちろん、これはマルチクラス分類にも一般化できます。