技術用語の誤用を謝罪します。私は、畳み込みニューラルネットワーク(CNN)によるセマンティックセグメンテーションのプロジェクトに取り組んでいます。タイプEncoder-Decoderのアーキテクチャを実装しようとしているため、出力は入力と同じサイズです。
ラベルはどのようにデザインしますか?どの損失関数を適用する必要がありますか?特にクラスの不均衡が激しい状況では(ただし、クラス間の比率はイメージごとに異なります)。
問題は2つのクラス(対象オブジェクトと背景)を扱います。Kerasをtensorflowバックエンドで使用しています。
これまでのところ、予想される出力をピクセル単位のラベリングを適用して入力画像と同じ次元になるように設計しています。モデルの最終層には、ソフトマックスアクティベーション(2つのクラスの場合)またはシグモイドアクティベーション(ピクセルがオブジェクトクラスに属する確率を表すため)があります。次のタイプのタスクに適した目的関数の設計に問題があります。
function(y_pred,y_true)
、
Kerasとの合意による。
関係するテンソルの寸法(モデルの入力/出力)を具体的に示してください。どんな考えや提案も大歓迎です。ありがとうございました !