ピクセルベースの分類とオブジェクトベースの分類の区別?


14

リモートセンシングドメインにおけるピクセルベースとオブジェクトベースの分類の違いを明確に理解するのに苦労しており、このコミュニティの誰かが洞察を提供できることを期待しています。

私がこれまでに得た情報に基づいて、私の現在の理解はこれらの線に沿っています:

ピクセルベースの分類: 分類はピクセルごとに行われ、その個々のピクセルで利用可能なスペクトル情報のみを使用します(つまり、局所性内のピクセルの値は無視されます)。この意味で、各ピクセルは分類アルゴリズムのトレーニング例であり、このトレーニング例はn次元ベクトルの形式になります。nは画像データのスペクトルバンドの数です。したがって、訓練された分類アルゴリズムは、画像内の個々のピクセルごとにクラス予測を出力します。

オブジェクトベースの分類: 分類は、各ピクセルが互いに関連しているときの各ピクセルの空間特性を考慮して、ローカライズされたピクセルのグループで行われます。この意味で、分類アルゴリズムのトレーニング例はピクセルのグループで構成され、トレーニングされた分類アルゴリズムはそれに応じてグループベースでピクセルのクラス予測を出力します。大まかな例では、画像を同じサイズのn個のセグメントに分割し、各セグメントにクラスを指定します(つまり、オブジェクトを含む/オブジェクトを含まない)。

この考えはこれらの用語の意味に関して正確ですか、それとも私が見逃したものがありますか?

回答:


9

一般的に理解は正しいですが、オブジェクトベースの分類の説明には危険があります。「オブジェクト」という用語は、特定のオブジェクトが含まれているかどうかではなく、ピクセルのグループを指します。
さらに、オブジェクトベースの分類の中心的な目標は、同じサイズのセグメントを持つことではなく、さまざまなサイズの内部的に均一なチャンクに画像を「切り刻む」/セグメント化することです。最後に、オブジェクトベースの分類のトレーニング例は、通常、画像セグメンテーションで作成された1つ以上のチャンクです。

全体として、上記の説明はごくわずかなバリエーションにすぎません。

ここで中央部分に-各方法を適用するタイミングと、それらの長所を潜在的に組み合わせる方法。


ありがとう、それは本当に明確にするのに役立ちました。オブジェクトベースの分類の微妙さを十分に理解していないのではないかと疑っていました!ハイブリッドアプローチの可能性について言及しているのは興味深いことです。スライディングウィンドウアプローチを使用してオブジェクトを検出および分類する場合、リモートセンシングドメインでそのようなアプローチに適用される技術用語はありますか?
RDG

1
はい、それは畳み込みと呼ばれます。私の答えをご覧ください。
ジョンパウエル

私の意見では、ピクセルベースの分類には強度がありません。コンボリューションに加えてバウンディングボックスと位置を予測する回帰を含む興味深いワークフローがありますが、ピクセルベースの分類自体には価値がありません。
ジョンパウエル

1
@JohnPowellakaBarça-マルチテンポラルアプリケーションを検討する場合、従来の単一のタイムステップではなく、変化する領域に重点を置いたピクセルベースのアプローチに価値があります。
ミケルリドホルムラスムッセン

1
確かに、はい、十分に公平です。おそらく、地域ベースのアプローチは、ベクトル化され、時間をかけて比較されるため、潜在的に大きな洞察が得られる可能性がありますが、ポイントは十分に得られています。
ジョンパウエル

12

ピクセルベースの分類に関する限り、あなたはスポットライトです。各ピクセルはn次元のベクトルであり、サポートベクターマシン、MLE、ある種のknn分類器などを使用しているかどうかにかかわらず、何らかのメトリックに従ってクラスに割り当てられます。

ただし、地域ベースの分類器に関する限り、ここ数年で、GPU、膨大なデータ、クラウド、およびオープンソースの成長によるアルゴリズムの広範な可用性の組み合わせによって推進されている巨大な開発が行われています(促進されています) github)。コンピュータービジョン/分類の最大の開発の1つは、畳み込みニューラルネットワーク(CNN)でした。。畳み込み層は、従来のピクセルベースの分類子と同様に、色に基づいている可能性のある特徴を「学習」しますが、エッジ検出器およびピクセルの領域に存在する可能性のある他のすべての種類の特徴抽出器(したがって畳み込み部分)を作成しますピクセルベースの分類から抽出することはできません。これは、他の種類のピクセルの領域の中央でピクセルを誤分類する可能性が低いことを意味します-分類を実行してアマゾンの真ん中で氷を取得したことがある場合は、この問題を理解できます。

次に、完全に接続されたニューラルネットを、畳み込みを介して学習された「機能」に適用して、実際に分類を行います。CNNのその他の大きな利点の1つは、スケールと回転が不変であることです。通常、畳み込み層と分類層の間に中間層があり、プーリングとドロップアウトを使用してフィーチャを一般化し、オーバーフィットを回避し、周りの問題を支援しますスケールと方向。

たたみ込みニューラルネットワークに関するリソースは多数ありますが、この分野の先駆者の1人であるAndrei KarpathyのStandordクラスが最良であり、講義シリーズ全体がyoutubeで利用できます。

確かに、ピクセルベースとエリアベースの分類を処理する他の方法がありますが、これは現在最先端のアプローチであり、機械翻訳や自動運転車など、リモートセンシング分類以外の多くのアプリケーションがあります。

TensorFlowのセットアップとAWSでの実行の手順を含む、タグ付きトレーニングデータにOpen Street Mapを使用した地域ベースの分類の別の例を次に示します。

これは、エッジ検出に基づく分類器のGoogle Earth Engineを使用した例です。この場合、ピボット灌漑用です。ガウスカーネルと畳み込みだけを使用しますが、領域/エッジベースのアプローチの威力を示しています。

ここに画像の説明を入力してください

ピクセルベースの分類に対するオブジェクトの優位性はかなり広く受け入れられていますが、オブジェクトベースの分類のパフォーマンスを評価するリモートセンシングレターの興味深い記事があります

最後に、面白い例として、地域/畳み込みベースの分類器を使用しても、コンピュータビジョンは依然として非常に難しいことを示しています。幸いなことに、GoogleやFacebookなどの最も賢い人たちは、犬、猫、犬や猫の異なる品種。そのため、リモートセンシングに興味のある人は、夜も簡単に眠ることができます:D

ここに画像の説明を入力してください


0

非常に簡単な答えは次のとおりです。

トレーニングセットとしてスペクトル情報(ピクセル強度)のみを使用する場合、ピクセルベースの分類を行います。

トレーニングセットとして空間(近傍ピクセル)とスペクトル情報の両方を使用する場合、オブジェクトベースの分類(DBScanなどのセグメンテーションベースのアルゴリズムを使用)を実行します。コンピュータービジョンでは、このDBScanはスーパーピクセル抽出に使用されました。

注:特徴の抽出には、あらゆる意味(サイズ、形状、コンテキスト/テクスチャ)でスペクトル情報を使用できます。

スペクトル情報を使用して特徴抽出を行うために、さまざまなアプローチを使用できます。

主な問題は、特徴抽出のための最も適切なアプローチを見つけ、スペクトル情報から情報を引き出すために提起された問題に効率的なアルゴリズム(エッジ検出、スペクトルベースのセグメンテーション、クラスタリング)を適用する方法です。

たたみ込み行列は、トレーニングセットを作成するためのスペクトル情報と空間情報の両方で優れた分析を行うと考えるかもしれません。

参照:リモートセンシングとGISドメインで3年以上の経験を積んだ後の私の知識。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.