オブジェクト検出、セマンティックセグメンテーション、およびローカリゼーションの違いは何ですか？

23

私は非常に多くの出版物でそれらの言葉を読みましたが、オブジェクト検出とセマンティックセグメンテーションとローカリゼーションの違いを明確にする用語のいくつかの素晴らしい定義が欲しいです。定義のソースを提供できると便利です。

terminology computer-vision

— マーティン・トーマ
ソース

1

チェックアウトここでスライド： - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

— Shatu

18

オブジェクト検出、オブジェクト認識、オブジェクトセグメンテーション、画像セグメンテーション、セマンティックイメージセグメンテーションに関する多くの論文を読みましたが、ここに私の結論はありません。

オブジェクト認識：特定の画像ですべてのオブジェクトを検出する必要があり（オブジェクトの制限されたクラスはデータセットに依存します）、境界ボックスでローカライズし、その境界ボックスにラベルを付けます。下の画像では、最先端のオブジェクト認識の簡単な出力が表示されます。

物体認識

オブジェクト検出：オブジェクト認識に似ていますが、このタスクではオブジェクト分類の2つのクラスしかありません。これは、オブジェクト境界ボックスと非オブジェクト境界ボックスを意味します。たとえば、車の検出：特定の画像内のすべての車を境界ボックスで検出する必要があります。

物体検出

オブジェクトのセグメンテーション：オブジェクト認識と同様に、画像内のすべてのオブジェクトを認識しますが、出力には、画像のピクセルを分類するこのオブジェクトが表示されます。

オブジェクトのセグメンテーション

画像の分割：画像の分割では、画像の領域を分割します。出力は、同じセグメント内にあるべき互いに一致するセグメントと画像の領域にラベルを付けません。画像からスーパーピクセルを抽出することは、このタスクまたは前景と背景のセグメンテーションの例です。

画像分割

セマンティックセグメンテーション：セマンティックセグメンテーションでは、オブジェクトのクラス（車、人、犬など）と非オブジェクト（水、空、道路など）で各ピクセルにラベルを付ける必要があります。セマンティックセグメンテーションでは、画像の各領域にラベルを付けます。

セマンティックセグメンテーション

— e_soroush
ソース

いい答えだ。cs231n.stanford.edu/slides/winter1516_lecture8.pdfスライド8は、同じクラス内の複数のクラスと複数のインスタンスを検出するオブジェクト検出の異なる定義を使用していることに注意してください（単一の受け入れられた定義があるかどうかはわかりませんが、そのため、これは単にあいまいさによる可能性があります）。

— キース

1

インスタンスセマンティックセグメンテーションのようなセグメンテーション、しかし、1つは別個のものとして牛にラベルを付けることがある

— タイタス

2

最初のコメントからのスライドが今ここにある： - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

— Shatu

5

この問題は2019年でもまだ明確ではないため、新しいML学習者の選択に役立つ可能性があるため、違いを示す非常に優れた画像を次に示します。

（ローカライズは、画像の分類が行われた後の「羊」クラスの境界ボックスです）ソース：Towardsdatascience.com

— 霧
ソース

3

「ローカリゼーション」とは、「単一オブジェクトの分類+ 2Dまたは3Dバウンディングボックスを使用したローカリゼーション」を意味すると思います。

「オブジェクト検出」とは、問題の既知のオブジェクトクラスのすべてのインスタンスをローカライズ+分類することです。

セマンティックセグメンテーションは、基本的にピクセルごとの分類です。

また、wrtに関連するメトリック（ソース：https : //devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/）

精度は、正確に識別されたオブジェクトと予測オブジェクトの総数の比率です（真陽性と真陽性と偽陽性の比率）。

リコールとは、正確に識別されたオブジェクトと画像内の実際のオブジェクトの総数との比率です（真のポジティブと真のポジティブと真のネガの比率）。

mAP：DetectNetの精度と再現率の積に基づく単純化された平均Average Precisionスコア。これは、ネットワークが関心のあるオブジェクトに対してどれだけ敏感であり、誤報をどれだけ回避できるかを示す適切な組み合わせの尺度です。

— アンドレイ・ポクロフスキー
ソース

2

ローカリゼーションという用語は不明確です。したがって、オブジェクト検出とセマンティックセグメンテーションという用語について説明します。

オブジェクト検出では、各画像ピクセルは、特定のクラス（顔など）に属しているかどうかに応じて分類されます。実際には、これはピクセルをグループ化してバウンディングボックスを形成することにより簡素化されるため、バウンディングボックスがオブジェクトの周囲にぴったり合うかどうかを判断する問題が軽減されます。ピクセルは複数のオブジェクト（顔、目など）に属することができるため、複数のラベルを同時に保持できます。

一方、セマンティックセグメンテーションでは、クラスラベルを各画像ピクセルに割り当てます。バウンディングボックスの簡素化が組み込まれていないため、ローカライズの精度が向上しますが、ピクセルごとに単一のラベルが厳密に適用されます。

— 顔検出器
ソース

-2

セマンティックセグメンテーション：同じオブジェクトクラスに属する画像の部分を一緒にクラスタリングするタスクです。例：道路標識の検出

— ガン
ソース

2

しかし、道路標識の検出は物体の検出です。違いを説明できますか？

— reinierpost