以前の答えは本当に素晴らしいです、私はいくつかの追加を指摘したいと思います:
オブジェクトのセグメンテーション
これが研究コミュニティで支持されなくなった理由の1つは、問題が曖昧であるためです。オブジェクトのセグメンテーションとは、単に画像内の単一または少数のオブジェクトを見つけてそれらの周りに境界を描くことを意味していましたが、ほとんどの目的で、これはまだこれを意味していると想定できます。ただし、オブジェクトである可能性のあるブロブのセグメンテーション、背景からのオブジェクトのセグメンテーションを意味するためにも使用され始めました (より一般的には、バックグラウンドサブトラクションまたはバックグラウンドセグメンテーションまたはフォアグラウンド検出と呼ばれる)、場合によっては、バウンディングボックスを使用したオブジェクト認識と交換可能に使用されます(これは、オブジェクト認識へのディープニューラルネットワークアプローチの登場ですぐに止まりましたが、事前にオブジェクト認識も可能でした。画像全体にオブジェクトを含むラベルを付けるだけです)。
「セグメンテーション」を「セマンティック」にするものは何ですか?
Simpy、各セグメント、またはディープメソッドの場合は各ピクセルに、カテゴリに基づくクラスラベルが付与されます。一般的にセグメンテーションは、いくつかのルールによる画像の分割です。たとえば、非常に高いレベルからの平均シフトセグメンテーションでは、画像のエネルギーの変化に応じてデータを分割します。グラフカットベースのセグメンテーションも同様に学習されていませんが、他の画像とは別の各画像のプロパティから直接派生しています。最近の(ニューラルネットワークベースの)メソッドは、ラベルが付けられたピクセルを使用して、特定のクラスに関連付けられているローカルフィーチャを識別し、そのピクセルに対して最も信頼度の高いクラスに基づいて各ピクセルを分類します。このように、「ピクセルラベル付け」は実際にはタスクに対してより正直な名前であり、「セグメンテーション」コンポーネントが出現しています。
インスタンスのセグメンテーション
オブジェクトのセグメンテーションのおそらく最も困難で、関連性があり、元の意味である「インスタンスのセグメンテーション」は、同じタイプであるかどうかに関係なく、シーン内の個々のオブジェクトのセグメンテーションを意味します。ただし、これが非常に難しい理由の1つは、ビジョンの観点(およびある意味で哲学的な観点)から「オブジェクト」インスタンスを作成するものが完全に明確ではないためです。体の部分はオブジェクトですか?そのような「パーツオブジェクト」は、インスタンスセグメンテーションアルゴリズムによってまったくセグメント化されるべきですか?全体から分離して表示される場合にのみ、セグメント化する必要がありますか?複合オブジェクトは、2つのオブジェクトが明確に隣接しているが、1つまたは2つのオブジェクトに分離可能である必要があります(適切に作成されていない場合、石は棒の上部に接着されていますか、斧、ハンマー、または棒と岩だけですか?)。また、それは インスタンスを区別する方法を明確にします。意志は、アタッチされている他の壁とは別のインスタンスですか?インスタンスはどの順序でカウントする必要がありますか?彼らが現れるように?視点に近接?これらの困難にもかかわらず、オブジェクトのセグメンテーションは依然として重要です。なぜなら、人間は「クラスラベル」に関係なく常にオブジェクトとやり取りするためです(紙の重りとして椅子のないものの上に座って、あなたの周りのランダムなオブジェクトを使用します)。したがって、一部のデータセットはこの問題に対処しようと試みますが、問題にあまり注意が払われていない主な理由は、十分に定義されていないためです。
シーン解析/シーンラベリング
シーン解析は、シーンのラベリングに対する厳密なセグメンテーションアプローチであり、独自の曖昧さの問題もあります。歴史的に、シーンのラベル付けは、「シーン」全体(イメージ)をセグメントに分割し、それらすべてにクラスラベルを付けることを意味していました。ただし、明示的にセグメント化せずに画像の領域にクラスラベルを付けることも意味していました。セグメンテーションに関して、「セマンティックセグメンテーション」はシーン全体を分割することを意味しません。セマンティックセグメンテーションの場合、アルゴリズムは、認識しているオブジェクトのみをセグメント化することを目的としており、ラベルのないピクセルにラベルを付けるための損失関数によってペナルティが課せられます。たとえば、MS-COCOデータセットは、一部のオブジェクトのみがセグメント化されているセマンティックセグメンテーションのデータセットです。