多くのニューラルネットワークパッケージでは、最小化する目的関数と出力層のアクティブ化関数をペアにするのが標準のようです。
たとえば、回帰に使用される線形出力層の場合、二乗誤差目的関数を持つことは標準的です(多くの場合、選択肢は1つだけです)。もう1つの通常の組み合わせは、ロジスティック出力とログ損失(またはクロスエントロピー)です。さらにもう1つは、ソフトマックスとマルチログ損失です。
表記法を使用すると、はアクティベーション前の値(重みの合計に前のレイヤーのアクティベーションを掛けたもの)、aはアクティベーション、yはトレーニングに使用されるグラウンドトゥルース、iは出力ニューロンのインデックスです。
線形活性化は2乗誤差1を伴います
シグモイド活性化 logloss /クロスエントロピ目的と進む-Σ∀I(YI*LOG(I)+(1-YI)*LOG(1-I))
Softmaxアクティベーション
それらは私が知っているものであり、まだ聞いていないことがたくさんあると思います。
ただし、二乗誤差の目的でシグモイド出力を試すことはそれほど悪くないようです。安定していて、少なくとも収束する必要があります。
tanh
ニューラルネットワークのアーキテクチャを設計するときに、出力のアクティブ化と目的関数の「非標準」の組み合わせを使用する、または使用する必要がある状況はありますか?