クロスエントロピー損失関数のさまざまな定義

12

私は、neuralnetworksanddeeplearning dot comチュートリアルでニューラルネットワークについて学び始めました。特に第3章には、クロスエントロピー関数に関するセクションがあり、クロスエントロピー損失を次のように定義しています。

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

ただし、Tensorflowの概要を読むと、クロスエントロピー損失は次のように定義されます。

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$ （上記と同じ記号を使用する場合）

次に、何が起こっているのかを探すために周りを検索すると、クロスエントロピー損失の完全に異なる定義を使用する別のメモセット（https://cs231n.github.io/linear-classify/#softmax-classifier）が見つかりました。ニューラルネットワークではなく、ソフトマックス分類器の時間。

誰かが私にここで何が起こっているのか説明できますか？なぜ矛盾があるのですか？クロスエントロピー損失はどのように定義されますか？いくつかの包括的な原則はありますか？

— レジナルド
ソース

密接に関連：stats.stackexchange.com/questions/260505/...

— Sycoraxが復活モニカ言う

18

これら3つの定義は基本的に同じです。

1）Tensorflow導入、

C = - \frac{1}{n} \sum_{x} \sum_{j} (y_{j} \ln a_{j}) .

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

2）バイナリ分類場合、、制約および、それはとして書き換えられ、第3章と同じです。。 $j=2$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + y_{2} \ln a_{2})

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + (1 - y_{1}) \ln (1 - a_{1}))

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$

3）さらに、がワンホットベクトル（分類ラベルの場合によくある）であり、が唯一の非ゼロ要素である場合、対応するサンプルのクロスエントロピー損失は $y$ $y_k$

C_{x} = - \sum_{j} (y_{j} \ln a_{j}) = - (0 + 0 + . . . + y_{k} \ln a_{k}) = - \ln a_{k} .

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

でcs231ノート、一つのサンプルの交差エントロピー損失は次のようにソフトマックス正規と共に与えられる

C_{x} = - \ln (a_{k}) = - \ln (\frac{e^{f_{k}}}{\sum_{j} e^{f_{j}}}) .

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

— ドントル
ソース

0

第三章、式（63）は、複数のシグモイドに適用クロスエントロピー（すなわち、1に合計なくてもよい）でありながらイントロTensoflowクロスエントロピソフトマックス出力層で計算されます。

dontlooで説明されているように、2つのクラスの両方の式は基本的に同等ですが、3つ以上のクラスが考慮される場合はそうではありません。Softmaxは、排他的なクラスを持つマルチクラス（つまり、サンプルごとにラベルが1つしかない場合に、ラベルのワンホットエンコーディングを可能にする）に意味がありますいくつかのクラス）。

この他のdontlooの回答も参照してください。

— Xiawi
ソース