「セグメンテーション」や「シーンラベリング」と比較した「セマンティックセグメンテーション」とは何ですか?


97

セマンティックセグメンテーションは単なるPleonasmですか、それとも「セマンティックセグメンテーション」と「セグメンテーション」の間に違いがありますか?「シーンのラベル付け」または「シーンの解析」に違いはありますか?

ピクセルレベルのセグメンテーションとピクセル単位のセグメンテーションの違いは何ですか?

(サイド質問:この種のピクセル単位のアノテーションがある場合、オブジェクト検出を無料で取得しますか、それともまだ何かする必要がありますか?)

定義の出典を教えてください。

「セマンティックセグメンテーション」を使用するソース

「シーンラベリング」を使用するソース

「ピクセルレベル」を使用するソース

  • Pinheiro、Pedro O.、Ronan Collobert:「畳み込みネットワークによる画像レベルからピクセルレベルのラベリングへ」コンピュータビジョンとパターン認識に関するIEEE会議の議事録、2015年(http://arxiv.org/abs/1411.6228を参照)

「pixelwise」を使用するソース

  • Li、Hongsheng、Rui Zhao、Xiaogang Wang:「ピクセルごとの分類のための畳み込みニューラルネットワークの非常に効率的な前方および後方伝播」arXivプレプリントarXiv:1412.4526、2014

Google Ngram

「セマンティックセグメンテーション」は、「シーンのラベル付け」よりも最近使用されているようです。

ここに画像の説明を入力してください


非常に似ていると思われるその他の用語:(ピクセルごとの)分類/ラベル付け
Martin Thoma 2015年

12
@MartinThomaが質問[リンク](arxiv.org/pdf/1602.06541.pdf)を行ってから約6か月後に発行されたarXivプレプリント調査セマンティックセグメンテーションを持っていることは本当に興味深いです。よくやった!
Mohamed Hasan

回答:


92

「セグメンテーション」は、いくつかの「コヒーレント」の部分に画像のパーティションですが、なしのこれらの部分が何を表しているか理解するのが任意の試み。最も有名な作品の1つ(間違いなく最初のものではありません)は、ShiとMalikの "Normalized Cuts and Image Segmentation" PAMI 2000です。これらの作品は、色、テクスチャー、境界の滑らかさなどの低レベルのキューの観点から「一貫性」を定義しようとしています。これらの作品をゲシュタルト理論にさかのぼることができます。

一方、「セマンティックセグメンテーション」意味論的に意味のある部分に画像を分割し、試み所定のクラスのいずれかに各部分を分類します。(画像/セグメント全体ではなく)各ピクセルを分類することで同じ目標を達成することもできます。その場合、ピクセルごとの分類を行っています。これにより、最終結果は同じになりますが、経路が少し異なります...

つまり、「セマンティックセグメンテーション」、「シーンのラベリング」、「ピクセルごとの分類」は、基本的に同じ目標を達成しようとしていると言えます。つまり、画像内の各ピクセルの役割を意味的に理解することです。あなたはその目標に到達するために多くの道をたどることができます、そしてこれらの道は用語のわずかなニュアンスにつながります。


2
セマンティックセグメンテーションにつながるパスと、シーンのラベル付けまたはピクセルごとの分類につながるパスはどれですか。
Martin Thoma、2015年

3
@moose一般的に言えば、「セグメンテーション」研究分野から生まれたツールやアルゴリズム(CRF、滑らかさを誘発する用語など)を使用している場合は、「セマンティックセグメンテーション」を行っています。一方、画像分類に使用されるツールとアルゴリズムをローカルで使用している場合は、「ピクセル単位のラベル付け」と表現する可能性が高くなります。ただし、実際的な違いはないと思います。意味上の違いのみです。これらは同じ最終目標のかなりの同義語です。
Shai

63

私は、オブジェクト検出、オブジェクト認識、オブジェクトセグメンテーション、画像セグメンテーション、およびセマンティック画像セグメンテーションに関する多くの論文を読みましたが、真実ではない可能性がある私の結論は次のとおりです。

オブジェクトの認識:特定の画像ですべてのオブジェクトを検出する必要があります(オブジェクトの制限されたクラスはデータセットによって異なります)。境界ボックスでオブジェクトをローカライズし、その境界ボックスにラベルを付けます。下の画像では、最先端のオブジェクト認識の簡単な出力が表示されます。

物体認識

オブジェクト検出:オブジェクト認識に似ていますが、このタスクでは、オブジェクト分類の2つのクラスしかありません。つまり、オブジェクト境界ボックスと非オブジェクト境界ボックスです。たとえば、車の検出:バウンディングボックスを使用して、特定の画像内のすべての車を検出する必要があります。

オブジェクト検出

オブジェクトのセグメンテーション:オブジェクト認識と同様に、画像内のすべてのオブジェクトを認識しますが、出力には、画像のこのオブジェクト分類ピクセルが表示されます。

オブジェクトのセグメンテーション

画像の分割:画像の分割では、画像の領域を分割します。あなたの出力は、互いに一貫しているはずの画像のセグメントと領域を同じセグメントにラベル付けしません。画像からスーパーピクセルを抽出することは、このタスクまたは前景と背景のセグメンテーションの例です。

画像分割

セマンティックセグメンテーション:セマンティックセグメンテーションでは、各ピクセルにオブジェクトのクラス(車、人物、犬など)と非オブジェクト(水、空、道路など)のラベルを付ける必要があります。つまり、セマンティックセグメンテーションでは、画像の各領域にラベルを付けます。

セマンティックセグメンテーション

ピクセルレベルとピクセル単位のラベル付けは、基本的には画像のセグメンテーションやセマンティックのセグメンテーションと同じであると思います。私もこのリンクで同じようにあなたの質問に答えました。


8
また、インスタンスセグメンテーション、つまり同じオブジェクトのインスタンス間のデリエネーションを追加します
Alex

1
「画像認識」は「画像検出」ではなく「画像分類」の同義語だと私は主張します。画像内の1つまたは複数のオブジェクトを認識し、それが存在するかどうかを判別できるようにすることです。それがどこにあるかも知りたい場合は、バウンディングボックスを使用してオブジェクトを検出する必要があります。また、オブジェクト検出器が単一のクラスのみを検出できる必要がある理由はわかりません。
ピエツ

私は部分的にあなたに同意します。画像認識とは何も言及しなかったので、画像認識と分類は同じ意味になる可能性があります。ただし、オブジェクト検出は主に2つのクラスの問題とマルチクラスのオブジェクト認識に使用されます。とにかく、私には答えの警戒心がありません。それは、約3年前に新聞を読んだことからの私の考えでした!乾杯!
e_soroush

あなたがあなたの読書を見つけるいくつかの場所について詳しく説明してもらえますか?
qarthandso

36

以前の答えは本当に素晴らしいです、私はいくつかの追加を指摘したいと思います:

オブジェクトのセグメンテーション

これが研究コミュニティで支持されなくなった理由の1つは、問題が曖昧であるためです。オブジェクトのセグメンテーションとは、単に画像内の単一または少数のオブジェクトを見つけてそれらの周りに境界を描くことを意味していましたが、ほとんどの目的で、これはまだこれを意味していると想定できます。ただし、オブジェクトである可能性のあるブロブのセグメンテーション、背景からのオブジェクトのセグメンテーションを意味するためにも使用され始めました (より一般的には、バックグラウンドサブトラクションまたはバックグラウンドセグメンテーションまたはフォアグラウンド検出と呼ばれる)、場合によっては、バウンディングボックスを使用したオブジェクト認識と交換可能に使用されます(これは、オブジェクト認識へのディープニューラルネットワークアプローチの登場ですぐに止まりましたが、事前にオブジェクト認識も可能でした。画像全体にオブジェクトを含むラベルを付けるだけです)。

「セグメンテーション」を「セマンティック」にするものは何ですか?

Simpy、各セグメント、またはディープメソッドの場合は各ピクセルに、カテゴリに基づくクラスラベルが付与されます。一般的にセグメンテーションは、いくつかのルールによる画像の分割です。たとえば、非常に高いレベルからの平均シフトセグメンテーションでは、画像のエネルギーの変化に応じてデータを分割します。グラフカットベースのセグメンテーションも同様に学習されていませんが、他の画像とは別の各画像のプロパティから直接派生しています。最近の(ニューラルネットワークベースの)メソッドは、ラベルが付けられたピクセルを使用して、特定のクラスに関連付けられているローカルフィーチャを識別し、そのピクセルに対して最も信頼度の高いクラスに基づいて各ピクセルを分類します。このように、「ピクセルラベル付け」は実際にはタスクに対してより正直な名前であり、「セグメンテーション」コンポーネントが出現しています。

インスタンスのセグメンテーション

オブジェクトのセグメンテーションのおそらく最も困難で、関連性があり、元の意味である「インスタンスのセグメンテーション」は、同じタイプであるかどうかに関係なく、シーン内の個々のオブジェクトのセグメンテーションを意味します。ただし、これが非常に難しい理由の1つは、ビジョンの観点(およびある意味で哲学的な観点)から「オブジェクト」インスタンスを作成するものが完全に明確ではないためです。体の部分はオブジェクトですか?そのような「パーツオブジェクト」は、インスタンスセグメンテーションアルゴリズムによってまったくセグメント化されるべきですか?全体から分離して表示される場合にのみ、セグメント化する必要がありますか?複合オブジェクトは、2つのオブジェクトが明確に隣接しているが、1つまたは2つのオブジェクトに分離可能である必要があります(適切に作成されていない場合、石は棒の上部に接着されていますか、斧、ハンマー、または棒と岩だけですか?)。また、それは インスタンスを区別する方法を明確にします。意志は、アタッチされている他の壁とは別のインスタンスですか?インスタンスはどの順序でカウントする必要がありますか?彼らが現れるように?視点に近接?これらの困難にもかかわらず、オブジェクトのセグメンテーションは依然として重要です。なぜなら、人間は「クラスラベル」に関係なく常にオブジェクトとやり取りするためです(紙の重りとして椅子のないものの上に座って、あなたの周りのランダムなオブジェクトを使用します)。したがって、一部のデータセットはこの問題に対処しようと試みますが、問題にあまり注意が払われていない主な理由は、十分に定義されていないためです。 ここに画像の説明を入力してください

シーン解析/シーンラベリング

シーン解析は、シーンのラベリングに対する厳密なセグメンテーションアプローチであり、独自の曖昧さの問題もあります。歴史的に、シーンのラベル付けは、「シーン」全体(イメージ)をセグメントに分割し、それらすべてにクラスラベルを付けることを意味していました。ただし、明示的にセグメント化せずに画像の領域にクラスラベルを付けることも意味していました。セグメンテーションに関して、「セマンティックセグメンテーション」シーン全体を分割することを意味しません。セマンティックセグメンテーションの場合、アルゴリズムは、認識しているオブジェクトのみをセグメント化することを目的としており、ラベルのないピクセルにラベルを付けるための損失関数によってペナルティが課せられます。たとえば、MS-COCOデータセットは、一部のオブジェクトのみがセグメント化されているセマンティックセグメンテーションのデータセットです。 MS-COCOサンプル画像

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.