回答:
オブジェクト検出、オブジェクト認識、オブジェクトセグメンテーション、画像セグメンテーション、セマンティックイメージセグメンテーションに関する多くの論文を読みましたが、ここに私の結論はありません。
オブジェクト認識:特定の画像ですべてのオブジェクトを検出する必要があり(オブジェクトの制限されたクラスはデータセットに依存します)、境界ボックスでローカライズし、その境界ボックスにラベルを付けます。下の画像では、最先端のオブジェクト認識の簡単な出力が表示されます。
オブジェクト検出:オブジェクト認識に似ていますが、このタスクではオブジェクト分類の2つのクラスしかありません。これは、オブジェクト境界ボックスと非オブジェクト境界ボックスを意味します。たとえば、車の検出:特定の画像内のすべての車を境界ボックスで検出する必要があります。
オブジェクトのセグメンテーション:オブジェクト認識と同様に、画像内のすべてのオブジェクトを認識しますが、出力には、画像のピクセルを分類するこのオブジェクトが表示されます。
画像の分割:画像の分割では、画像の領域を分割します。出力は、同じセグメント内にあるべき互いに一致するセグメントと画像の領域にラベルを付けません。画像からスーパーピクセルを抽出することは、このタスクまたは前景と背景のセグメンテーションの例です。
セマンティックセグメンテーション:セマンティックセグメンテーションでは、オブジェクトのクラス(車、人、犬など)と非オブジェクト(水、空、道路など)で各ピクセルにラベルを付ける必要があります。セマンティックセグメンテーションでは、画像の各領域にラベルを付けます。
この問題は2019年でもまだ明確ではないため、新しいML学習者の選択に役立つ可能性があるため、違いを示す非常に優れた画像を次に示します。
(ローカライズは、画像の分類が行われた後の「羊」クラスの境界ボックスです) ソース:Towardsdatascience.com
「ローカリゼーション」とは、「単一オブジェクトの分類+ 2Dまたは3Dバウンディングボックスを使用したローカリゼーション」を意味すると思います。
「オブジェクト検出」とは、問題の既知のオブジェクトクラスのすべてのインスタンスをローカライズ+分類することです。
セマンティックセグメンテーションは、基本的にピクセルごとの分類です。
また、wrtに関連するメトリック(ソース:https : //devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/)
精度は、正確に識別されたオブジェクトと予測オブジェクトの総数の比率です(真陽性と真陽性と偽陽性の比率)。
リコールとは、正確に識別されたオブジェクトと画像内の実際のオブジェクトの総数との比率です(真のポジティブと真のポジティブと真のネガの比率)。
mAP:DetectNetの精度と再現率の積に基づく単純化された平均Average Precisionスコア。これは、ネットワークが関心のあるオブジェクトに対してどれだけ敏感であり、誤報をどれだけ回避できるかを示す適切な組み合わせの尺度です。
ローカリゼーションという用語は不明確です。したがって、オブジェクト検出とセマンティックセグメンテーションという用語について説明します。
オブジェクト検出では、各画像ピクセルは、特定のクラス(顔など)に属しているかどうかに応じて分類されます。実際には、これはピクセルをグループ化してバウンディングボックスを形成することにより簡素化されるため、バウンディングボックスがオブジェクトの周囲にぴったり合うかどうかを判断する問題が軽減されます。ピクセルは複数のオブジェクト(顔、目など)に属することができるため、複数のラベルを同時に保持できます。
一方、セマンティックセグメンテーションでは、クラスラベルを各画像ピクセルに割り当てます。バウンディングボックスの簡素化が組み込まれていないため、ローカライズの精度が向上しますが、ピクセルごとに単一のラベルが厳密に適用されます。
セマンティックセグメンテーション:同じオブジェクトクラスに属する画像の部分を一緒にクラスタリングするタスクです。例:道路標識の検出