F1 /ダイススコアとIoU


24

F1スコア、Diceスコア、およびIoU(結合の交差点)の違いについて混乱しました。ここまでで、F1とDiceは同じものを意味することがわかりました(右?)。IoUは他の2つと非常によく似た式を持っています。

  • F1 /ダイス:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

F1が真陽性をより高く重み付けすることを除いて、実用的な違いや注目に値するその他のものはありますか?一方を使用して他方を使用しない状況はありますか?


明らかに、Jaccard係数もIoUと同じです
pietz

これらの測定値(現在4つ)の一部がバイナリデータのみを対象としている場合、特に興味があります。
-pietz

回答:


37

あなたは正しい軌道に乗っています。

そのため、すぐにいくつかのことができます。2つのメトリクスの定義から、IoUとFスコアは常に互いに2倍以内にあることがわかります あり、条件の下で1と0の極値で満たされますあなたが期待するであろう(完全に一致し、完全にばらばらです)。

F/2oうんF

また、それらの間の比率は、IoUに明示的に関連付けることができることに注意してください なので、両方のメトリックがゼロに近づくと比率は1/2に近づきます。

oうん/F=1/2+oうん/2

しかし、機械学習の分類の典型的なアプリケーションに対して行うことができるより強力なステートメントがあります。固定された「グラウンドトゥルース」の場合、2つのメトリックは常に正の相関があります。つまり、ある指標の下で分類子AがBよりも優れている場合、他の指標の下で分類子Bよりも優れているということです。

その場合、2つのメトリックが機能的に同等であると結論付けたいと思うので、それらの間の選択は任意ですが、それほど高速ではありません!問題は、一連の推論で平均スコアを取得するときに発生します。次に、特定のケースで分類器BがAよりもどれだけ悪いかを定量化するときに違いが現れます。

一般に、IoUメトリックは、Fスコアよりも悪い分類の単一インスタンスを、この1つのインスタンスが不良であると両者が同意できる場合でも、量的にペナルティを課す傾向があります。L2がL1を超える最大のミスにペナルティを課す方法と同様に、IoUメトリックは、Fスコアに関連するエラーに「二乗」効果をもたらす傾向があります。したがって、Fスコアは平均パフォーマンスに近いものを測定する傾向があり、IoUスコアは最悪の場合のパフォーマンスに近いものを測定します。

たとえば、大部分の推論は分類器Aを使用するとBよりも適度に優れているが、そのうちのいくつかは分類器Aを使用すると著しく悪いと仮定します。分類子B.

確かに、これらのメトリックは両方とも、異なるよりもはるかに似ています。しかし、これらは両方とも、多くの推論でこれらのスコアの平均を取るという観点から別の欠点に苦しんでいます。どちらも、実際のグラウンドトゥルースがほとんどないセットの重要性を誇張しています。画像のセグメンテーションの一般的な例では、画像に検出可能なクラスのピクセルが1つしかなく、分類子がそのピクセルと他の1つのピクセルを検出した場合、Fスコアは2/3になり、IoUは1 / 2。これらのような些細な間違いは、一連の画像に対して取られた平均スコアを大きく左右する可能性があります。つまり、選択/関連セットのサイズに反比例して各ピクセルエラーを重み付けするのではなく、それらを均等に処理します。

c0c1


ウィレム、私はより良い答えを求めることができなかったでしょう。お時間をいただきありがとうございました。
-pietz

5
トータルエラーアプローチを試しましたが、プラスとマイナスの不均衡が絶えずうまく機能しないことを付け加えました。グラウンドトゥルースセグメンテーションを構成するピクセルが1つだけの画像のデータセット全体を想像してください。ニューラルネットワークは、空の予測が常に合計誤差を使用して99.9%正確であることをかなり迅速に学習する場合があります。IoUまたはDSCを使用することにより、上記と同じ理由により、ネットワークにセグメンテーションの検出を要求します。したがって、最終的には非常に問題に依存します。
-pietz

1
誰かが私に次の2つの声明を和解させるのを手伝ってもらえますか?:1:"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."および2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
マット・クラインスミス

1
前者は単一の推論のスコアを指し、後者は一連の推論(たとえば、一連の画像)の平均スコアを指します。
ウィレム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.