U-Netはどのようにしてピクセル分類を単一の空間領域にグループ化しますか？

「U-Net」として知られるニューラルネットワーク（Ronneberger、Fischer、およびBrox 2015）は、Kaggleの最近の超音波神経セグメンテーションコンテストで著名な技術でした。そこでは、高いスコアが、手描きの領域。

（おそらくダウンサンプリングされた画像から）すべてのピクセルの分類を続行する場合、隣接するピクセルが同じクラスになる傾向があるという事前の知識を組み込む多くの方法が必要であり、さらにすべての正の分類が単一の空間領域。しかし、私はこれらのU-Netsがどのようにそれをしているのか理解できません。畳み込み演算子とプーリング演算子の迷路ではありますが、これらはすべてのピクセルを分類します。

分離の境界線が関係していますが、紙はそれらが「形態学的演算を使用して計算される」と述べており、これは私がU-Net自体から完全に分離していることを意味します。これらの境界線は、境界線のピクセルがより強調されるように、重みを変更するためにのみ使用されます。それらは分類タスクを根本的に変えるようには見えません。

すべてのピクセルを分類する際、「U-Net」と呼ばれるこの深い畳み込みニューラルネットワークは、予測領域が単一の空間領域になるという事前知識をどのように組み込んでいますか？

— ベン・オゴレク
ソース

これは、畳み込みフィルターの重みを更新するトレーニングデータセットを介してネットワークをトレーニングすることにより、「事前知識」を組み込んでいます。これは、ほとんどのニューラルネットワークが標準のバックプロップでトレーニングされる方法です。バックプロップされる損失は、この場合のセグメンテーション損失に基づいています。

これは、デコンボリューション視覚化vizをよりよく示すためのリンクです。これは、通常の畳み込みがどのようにトレーニングされるかと同じであり、ここにbackpropなどの他のリソースがあるため、トレーニングの方法は示していません。

— スティーブン
ソース

たとえば、LSTMの構造について考えてみましょう。アーキテクチャー自体は、「セル状態」を介して長期にわたる安定性を可能にします。空間の領域では、Uネットのようなものは見られませんでした。しかし、この質問をして以来、私はもう少し学びました。フィルターとアップコンボリューション操作により、入力はほとんど同じであるため、互いに近いピクセルは同じ予測クラスを持つ傾向があると思います。

— Ben Ogorek 2017

あなたが言ったことは間違っています。LSTMのアーキテクチャーは、本質的に安定性を考慮していません（長期間にわたって）。代わりに、LSTMは、隠れた状態（以前の入力）と現在の入力の非線形の組み合わせを実行します。非線形の組み合わせは、まったく安定している必要はありません。

— スティーブン

これは画像分類に似ています。VGG、またはResnetはどのようにして画像を猫や犬などに分類しますか？それは、画像の分類に使用できるピクセルの非線形表現を構築します。この場合、U-Netアーキテクチャは、ダウンサンプリングによってピクセルの非線形組み合わせをますます大きく空間解像度で構築します。その後、アップサンプリングを実行しますが、元の画像の他の機能よりもいくつかの機能を優先するアップサンプリングを学習します。画像をより適切にセグメント化するために、ダウンサンプリングとアップサンプリングの両方を実行する重みをトレーニングします。

— スティーブン

最後の2つの文は、元の回答で見たいと思っていたものよりも多くなっています。一般に、アップサンプリング（アップコンボリューション？）と学習できる機能の種類に関する資料は多くありません。元の答えでそれを拡張できますか？

— Ben Ogorek 2017

本当にそれは畳み込みと同じです。どのプロセスでフィルターがどのように学習されるのかは、逆伝播によってです。アップコンボリューションが何をしているかをより強調する別の投稿へのリンクを含めました。灰色の四角いブロックは、学習され、パディングされた青い入力に適用されるフィルターです。これで問題が解決するか、それでも混乱があるかどうかをお知らせください。

— スティーブン