セマンティックセグメンテーションペーパーとそれに対応する実装を読んでいると、ソフトレベルを使用するアプローチもあれば、ピクセルレベルのラベリングにシグモイドを使用するアプローチもあることがわかりました。
たとえば、u-netペーパーの場合、出力は2つのチャネルを持つ機能マップです。
これらの2つのチャネル出力でsoftmaxを使用する実装をいくつか見ました。以下の理解が正しいかどうかわかりません。
説明のために、マスクされた部分はクラス1に属し、他の部分はクラス2に属しています。私は、マスクまたは非マスクの2つのクラスのみを想定しています。
xy
出力マップを形状(1、image_row、image_col、2)で表すために使用します。次に、xy[1,0,0,0]
クラス1に属する(0,0)xy[1,0,0,1]
のピクセルの確率を表しますが、クラス2に属するピクセル(0,0)の確率を表します。xy[1,row,col,0]+xy[1,row,col,1]=1
私の理解は正しいですか?