Caffe(ディープラーニングフレームワーク)がほとんどのモデルサンプルの出力層としてSoftmax Loss Layer SoftmaxWithLoss
を使用していることを確認しました。
私の知る限り、Softmax損失層は、多項ロジスティック損失層とSoftmax層の組み合わせです。
カフェから、彼らはそれを言った
Softmax Loss Layerの勾配計算は、数値的に安定しています。
ただし、この説明は私が望む答えではありません。説明は、レイヤーごとではなく、多項ロジスティック損失レイヤーとソフトマックス損失レイヤーの組み合わせを比較するだけです。しかし、他のタイプの損失関数と比較しないでください。
しかし、教師付き学習の観点から、これらの3つのエラー関数である多項ロジスティック損失、クロスエントロピー(CE)、二乗誤差(SE)の違い/利点/欠点は何ですか?支持記事はありますか?
y-t
ます。willamette.edu/~gorr/classes/cs449/classify.html