分類のためにニューラルネットワークをトレーニングしようとしていますが、持っているラベルはかなりうるさいです(ラベルの約30%が間違っています)。
クロスエントロピー損失は確かに機能しますが、この場合により効果的な代替策はあるのでしょうか。またはクロスエントロピー損失が最適ですか?
よくわかりませんが、クロスエントロピー損失をいくらか「クリッピング」して、1つのデータポイントの損失が上限を超えないようにすることを考えています。
ありがとう!
更新
Lucasの回答によれば、予測出力とソフトマックス関数zの入力の導関数は次のとおりです。だから私は本質的にそれは平滑化項を追加していると思います3を導関数に。Piが=0.3/N+0.7YIL=-ΣTIログ(PI)∂Lを
更新ルーカスの回答と同じ式を適用するが、解釈が異なるGoogleの論文を偶然
読んだ。
セクション7では、ラベル平滑化によるモデルの正則化
しかし、予測に平滑化項を追加する代わりに、それをグラウンドトゥルースに追加しました。これは役立つことがわかりました。