ここでは、分類器などの機械学習アルゴリズムは、異なるカテゴリに属する入力の確率を決定することにより、入力データを統計的にモデル化します。任意の数のクラスの場合、通常、softmaxレイヤーがモデルに追加されるため、出力は設計により確率的特性を持ちます。
y⃗ =softmax(a⃗ )≡1∑ie−ai×[e−a1,e−a2,...,e−an]
0≤yi≤1 for all i
y1+y2+...+yn=1
ここで、はsoftmaxレイヤーの前のレイヤーのアクティブ化です。a
これは2つのクラスに対して完全に有効ですが、出力が次の条件を満たす場合、1つのニューロン(2つではなく)を使用することもできます。
0≤y≤1 for all inputs.
これは、上記の条件が満たされるようにをマップ変換(逆伝播のために微分可能/平滑化)が適用される場合に保証されます。シグモイド関数は基準を満たしています。単純な数学的表現以外に特別なことはありませんが、
ay
sigmoid(a)≡σ(a)≡11+e−a
有用な数学的特性(微分、0〜1の範囲など)、計算効率、最適化のためにネットワークの重みを更新しても出力にわずかではあるが測定可能な変化が生じるような適切な勾配があります。
結論
ソフトマックスとシグモイドを示す@itdxerの推論が有効であれば同等かどうかはわかりませんが、必要なパラメーターと計算が少ないため、バイナリ分類子の2つのニューロンとは対照的に1つのニューロンを選択するのは正しいです。また、「余分なもの」なので、バイナリ分類器に2つのニューロンを使用することで批判されています。