2
多項ロジスティック損失vs(クロスエントロピーvs二乗誤差)
Caffe(ディープラーニングフレームワーク)がほとんどのモデルサンプルの出力層としてSoftmax Loss Layer SoftmaxWithLossを使用していることを確認しました。 私の知る限り、Softmax損失層は、多項ロジスティック損失層とSoftmax層の組み合わせです。 カフェから、彼らはそれを言った Softmax Loss Layerの勾配計算は、数値的に安定しています。 ただし、この説明は私が望む答えではありません。説明は、レイヤーごとではなく、多項ロジスティック損失レイヤーとソフトマックス損失レイヤーの組み合わせを比較するだけです。しかし、他のタイプの損失関数と比較しないでください。 しかし、教師付き学習の観点から、これらの3つのエラー関数である多項ロジスティック損失、クロスエントロピー(CE)、二乗誤差(SE)の違い/利点/欠点は何ですか?支持記事はありますか?