次に、クロスエントロピー損失を表す方法を示します。
L(X,Y)=−1n∑i=1ny(i)lna(x(i))+(1−y(i))ln(1−a(x(i)))
ここで、はトレーニングデータセットの入力例のセットであり、は、これらの入力例に対応するラベルのセットです。入力所与のニューラルネットワークの出力を表し。X={x(1),…,x(n)}Y={y(1),…,y(n)}a(x)x
各は0または1であり、出力のアクティブ化は通常、ロジスティックシグモイドを使用することにより、開いている間隔(0、1に制限されます。たとえば、1層ネットワーク(ロジスティック回帰と同等)の場合、アクティブ化はによって与えられここではa重み行列、はバイアスベクトルです。複数のレイヤーの場合、アクティベーション関数をように拡張できますここで、とは最初のレイヤーの重み行列とバイアス、y(i)a(x)
a(x)=11+e−Wx−b
Wba(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) ネットワークの非表示層のアクティブ化です。
Andrew Ngの機械学習コースで非常に効果的であることがわかったので、例を示すために(i)上付き文字を使用しました。例はマトリックスの列または行として例を表すことがありますが、考え方は同じです。