F1スコア、Diceスコア、およびIoU(結合の交差点)の違いについて混乱しました。ここまでで、F1とDiceは同じものを意味することがわかりました(右?)。IoUは他の2つと非常によく似た式を持っています。
- F1 /ダイス:
- IoU / Jaccard:
F1が真陽性をより高く重み付けすることを除いて、実用的な違いや注目に値するその他のものはありますか?一方を使用して他方を使用しない状況はありますか?
F1スコア、Diceスコア、およびIoU(結合の交差点)の違いについて混乱しました。ここまでで、F1とDiceは同じものを意味することがわかりました(右?)。IoUは他の2つと非常によく似た式を持っています。
F1が真陽性をより高く重み付けすることを除いて、実用的な違いや注目に値するその他のものはありますか?一方を使用して他方を使用しない状況はありますか?
回答:
あなたは正しい軌道に乗っています。
そのため、すぐにいくつかのことができます。2つのメトリクスの定義から、IoUとFスコアは常に互いに2倍以内にあることがわかります あり、条件の下で1と0の極値で満たされますあなたが期待するであろう(完全に一致し、完全にばらばらです)。
また、それらの間の比率は、IoUに明示的に関連付けることができることに注意してください なので、両方のメトリックがゼロに近づくと比率は1/2に近づきます。
しかし、機械学習の分類の典型的なアプリケーションに対して行うことができるより強力なステートメントがあります。固定された「グラウンドトゥルース」の場合、2つのメトリックは常に正の相関があります。つまり、ある指標の下で分類子AがBよりも優れている場合、他の指標の下で分類子Bよりも優れているということです。
その場合、2つのメトリックが機能的に同等であると結論付けたいと思うので、それらの間の選択は任意ですが、それほど高速ではありません!問題は、一連の推論で平均スコアを取得するときに発生します。次に、特定のケースで分類器BがAよりもどれだけ悪いかを定量化するときに違いが現れます。
一般に、IoUメトリックは、Fスコアよりも悪い分類の単一インスタンスを、この1つのインスタンスが不良であると両者が同意できる場合でも、量的にペナルティを課す傾向があります。L2がL1を超える最大のミスにペナルティを課す方法と同様に、IoUメトリックは、Fスコアに関連するエラーに「二乗」効果をもたらす傾向があります。したがって、Fスコアは平均パフォーマンスに近いものを測定する傾向があり、IoUスコアは最悪の場合のパフォーマンスに近いものを測定します。
たとえば、大部分の推論は分類器Aを使用するとBよりも適度に優れているが、そのうちのいくつかは分類器Aを使用すると著しく悪いと仮定します。分類子B.
確かに、これらのメトリックは両方とも、異なるよりもはるかに似ています。しかし、これらは両方とも、多くの推論でこれらのスコアの平均を取るという観点から別の欠点に苦しんでいます。どちらも、実際のグラウンドトゥルースがほとんどないセットの重要性を誇張しています。画像のセグメンテーションの一般的な例では、画像に検出可能なクラスのピクセルが1つしかなく、分類子がそのピクセルと他の1つのピクセルを検出した場合、Fスコアは2/3になり、IoUは1 / 2。これらのような些細な間違いは、一連の画像に対して取られた平均スコアを大きく左右する可能性があります。つまり、選択/関連セットのサイズに反比例して各ピクセルエラーを重み付けするのではなく、それらを均等に処理します。
"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."
および2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."