目的関数と出力層活性化関数の間のリンクはどの程度柔軟ですか？

多くのニューラルネットワークパッケージでは、最小化する目的関数と出力層のアクティブ化関数をペアにするのが標準のようです。

たとえば、回帰に使用される線形出力層の場合、二乗誤差目的関数を持つことは標準的です（多くの場合、選択肢は1つだけです）。もう1つの通常の組み合わせは、ロジスティック出力とログ損失（またはクロスエントロピー）です。さらにもう1つは、ソフトマックスとマルチログ損失です。

表記法を使用すると、はアクティベーション前の値（重みの合計に前のレイヤーのアクティベーションを掛けたもの）、はアクティベーション、はトレーニングに使用されるグラウンドトゥルース、は出力ニューロンのインデックスです。 $z$ $a$ $y$ $i$

線形活性化は2乗誤差伴います $a_i=z_i$ $\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2$
シグモイド活性化 logloss /クロスエントロピ目的と進む $a_i = \frac{1}{1+e^{-z_i}}$ $-\sum\limits_{\forall i} (y_i*log(a_i) + (1-y_i)*log(1-a_i))$
Softmaxアクティベーション $a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$ $-\sum\limits_{\forall i} (y_i*log(a_i))$

それらは私が知っているものであり、まだ聞いていないことがたくさんあると思います。

$y$

ただし、二乗誤差の目的でシグモイド出力を試すことはそれほど悪くないようです。安定していて、少なくとも収束する必要があります。

$\frac{\delta E}{\delta z}$ $E$ tanh

ニューラルネットワークのアーキテクチャを設計するときに、出力のアクティブ化と目的関数の「非標準」の組み合わせを使用する、または使用する必要がある状況はありますか？

neural-network gradient-descent

— ニール・スレーター
ソース

使用する必要のある損失関数を決定するのは、どのアクティブ化関数を使用するかではなく、出力の解釈です。

出力が確率であると想定されている場合は、ログ損失が適しています。

出力が一般的な値の場合、平均二乗誤差がデフォルトの方法です。したがって、たとえば、出力が0から1までの数字でラベル付けされたグレースケールのグレースケールピクセルである場合、平均二乗誤差目的関数をもつシグモイド活性化関数を使用することは意味があります。

— patapouf_ai
ソース