損失値が高いにもかかわらず精度が高い


15

単純なニューラルネットワークバイナリ分類器のトレーニング中に、クロスエントロピーを使用して高い損失値を取得します。それにもかかわらず、検証セットの精度の値は非常に良好です。何か意味がありますか?損失と精度の間に厳密な相関関係はありませんか?

これらの値のトレーニングと検証については、0.4011-acc:0.8224-val_loss:0.4577-val_acc:0.7826です。これはNNを実装する最初の試みであり、機械学習にアプローチしたばかりなので、これらの結果を適切に評価することはできません。


3
トレーニングセットまたは検証でのみ高い損失値を観察しますか?トレーニングセットと検証セットを比較すると、精度や損失が大幅に低下しますか?いくつかの数字が役立つだろう
ヒュー

回答:


20

同様の問題が発生しました。

ニューラルネットワークバイナリ分類器をクロスエントロピー損失でトレーニングしました。ここで、エポックの関数としてのクロスエントロピーの結果。赤はトレーニングセット用、青はテストセット用です。

エポックの関数としてのクロスエントロピー。

精度を示すことで、テストセットであっても、エポック50よりもエポック1000の方が精度が高いことに驚きました!

エポックの関数としての精度

クロスエントロピーと精度の関係を理解するために、単純なモデルであるロジスティック回帰(1つの入力と1つの出力)を掘り下げました。以下では、3つの特別なケースでこの関係を説明します。

一般に、クロスエントロピーが最小のパラメーターは、精度が最大のパラメーターではありません。ただし、クロスエントロピーと精度の間に何らかの関係があると予想される場合があります。

[以下では、クロスエントロピーとは何か、モデルを訓練するために精度の代わりにそれを使用する理由などを知っていると仮定します。そうでない場合は、最初にこれをお読みください]

イラスト1これは、クロスエントロピーが最小のパラメーターが精度が最大のパラメーターではないことを示し、その理由を理解するためのものです。

これが私のサンプルデータです。5つのポイントがあり、たとえば入力-1は出力0につながります。 5点のサンプル

クロスエントロピー。 クロスエントロピーを最小化すると、0.6の精度が得られます。0と1の間のカットは、x = 0.52で行われます。5つの値について、それぞれ0.14、0.30、1.07、0.97、0.43のクロスエントロピーを取得します。

正確さ。 グリッドの精度を最大化した後、0.8に至る多くの異なるパラメーターを取得します。これは、カットx = -0.1を選択することにより、直接表示できます。まあ、x = 0.95を選択してセットをカットすることもできます。

前者の場合、クロスエントロピーは大きくなります。実際、4番目のポイントはカットから遠く離れているため、大きなクロスエントロピーがあります。つまり、それぞれ0.01、0.31、0.47、5.01、0.004のクロスエントロピーが得られます。

2番目の場合、クロスエントロピーも大きくなります。その場合、3番目のポイントはカットから遠く離れているため、大きなクロスエントロピーを持ちます。それぞれ5e-5、2e-3、4.81、0.6、0.6のクロスエントロピーを取得します。

aab小さなデータの例

図2ここではを取りますn=100a=0.3b=0.5

bba中セット

a

a=0.3

図3ここを取りますn=10000a=1b=0

かなり大きなデータ

モデルに十分な容量がある場合(真のモデルを含めるのに十分)、データが大きい場合(つまり、サンプルサイズが無限になる場合)、少なくともロジスティックモデルの精度が最大の場合、クロスエントロピーは最小になると思います。私はこれの証拠を持っていません、誰かが参照を持っているならば、共有してください。

参考文献:クロスエントロピーと正確さを結びつける主題は興味深く複雑ですが、これを扱っている記事は見つかりません...正確性を研究することは、不適切なスコアリングルールであるにもかかわらず、誰もがその意味を理解できるため興味深いです。

注:最初に、このWebサイトで答えを見つけたいと思います。精度とクロスエントロピーの関係を扱った投稿は多数ありますが、答えはほとんどありません。比較可能なトレーリングとテストクロスエントロピーは非常に異なる精度をもたらします。検証損失は減少しますが、検証精度は悪化します。カテゴリーのクロスエントロピー損失関数に関する疑い ; ログ損失の割合としての解釈 ...


非常に良いイラスト。これらのイラストに触発されて、私は2つの考えられる理由を結論づけます。1.モデルは単純すぎて、予測に必要な特徴を抽出できません。イラストレーション1では、さまざまな問題があり、100%の精度を得るにはもう1つのレイヤーが必要です。
Diansheng

-1

ahstatは非常に良いイラストを提供します。

これらのイラストに触発され、私は2つの考えられる理由を結論づけます。1.モデルは単純すぎて、予測に必要な特徴を抽出できません。イラストレーション1では、さまざまな問題があり、100%の精度を得るにはもう1つのレイヤーが必要です。2.データのノイズラベルが多すぎます。図1と図3を比較してください

図2については、なぜモデルにL1 / L2正規化を追加できないのかを説明しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.