完全畳み込みニューラルネットワークでのパッチごとのトレーニングと完全畳み込みトレーニング


8

完全畳み込みニューラルネットワークの論文では、著者はパッチワイズトレーニングと完全畳み込みトレーニングの両方に言及しています。

トレーニングセットの構築に関する私の理解は次のとおりです。

与えられたM*M画像、抽出サブ画像とN*N(、 N<M)を。選択したサブ画像は、他のサブ画像と重複しています。トレーニングプロセスのバッチごとに、特定の画像または複数の画像のすべてのサブ画像を含めることができます。

私の理解は正しいですか?それでは、パッチごとのトレーニングと完全なたたみ込みトレーニングの違いは何ですか?関連セクションを参照として含めます。

ここに画像の説明を入力してください


あなたはその権利を持っています。
Michael R. Chernick 2017年

回答:


8

基本的に、完全たたみ込みトレーニングは、MxM画像全体を取得し、単一のConvNet転送パスですべてのサブ画像の出力を生成します。パッチワイズトレーニングは、サブイメージを明示的に切り取り、独立したフォワードパスで各サブイメージの出力を生成します。したがって、完全畳み込みトレーニングは通常、パッチ単位のトレーニングよりもかなり高速です。

したがって、完全にたたみ込みトレーニングを行うには、次のように更新します。

  1. MxM画像全体(または複数の画像)を入力
  2. ConvNetを介してプッシュ->出力のマップ全体を取得(画像あたりの最大サイズMxM、場合によってはそれよりも小さい)
  3. すべての出力の損失を使用して更新を行います

これは非常に高速ですが、パッチごとのトレーニングと比較してトレーニングサンプリングプロセスが制限されます。同じ画像に対して多くの更新を行わなければなりません。(実際には、すべてのサブイメージのすべての可能な更新)トレーニングの1つのステップ中。そのため、画像の各受容フィールド(別名サブイメージ)がパッチワイズトレーニング手順のトレーニングバッチに含まれている場合(パッチワイズトレーニングの場合、10のうち2つが可能になる可能性があります)画像Aからのサブ画像、画像Bからの8つの可能なサブ画像のうちの3つなど)。次に、完全畳み込みトレーニング中にすべての出力を使用しないことで、パッチワイズトレーニングに再び近づくと主張します(単一のトレーニングステップで画像のすべてのサブイメージに対して可能な更新をすべて行っていないため)。ただし、計算の一部が無駄になります。また、セクション4.4 /図5では、


こんにちはrobintibor、返信ありがとうございます。あなたは「MxM画像全体(または複数の画像)を入力する」と述べました。ネットワークにフィードする前にサブイメージを作成せずにイメージ全体をネットワークにフィードするということですか?実際には、画像サイズが非常に大きい場合は、通常、最初にサブ画像を作成する必要があります。私の理解は正しいですか?
user3125

こんにちは@ user3125はい画像全体をフィードするか、通常は1つのバッチで複数の画像をフィードします。2dイメージが大きすぎてメモリを介してネットワークをプッシュできないことはめったにないと思います。むしろ、バッチサイズ、つまり同時にネットワークにフィードする(サブではなく完全な)イメージの数を減らす必要があるかもしれません時間。
robintibor 2017年

こんにちはrobintibor、説明ありがとうございます。私のシナリオでは、大きなピクセルサイズ(980 * 980)の画像の数(200〜300)が制限されています。そのため、トレーニング用に小さな画像をたくさん作成することを考えています。
user3125 2017年

なるほど、分かりました。980 * 980次元の画像と3つのカラーチャネルの場合、float32 =ピクセルあたり4バイトと仮定すると、画像あたり約11 MBが必要です:(980 * 980 * 3 * 4バイト)/(1024 ^ 2.0)= 10.9909 MB。したがって、いくつかの画像は通常のGPUに簡単に収まるはずですが、ネットワーク構造(フィルターの数、レイヤーの数、ダウンサンプリングするときなど)によって、順方向と逆方向のパス全体で使用されるメモリの量が決まります。ネットワーク全体に画像全体をプッシュし、クラッシュするまでバッチサイズ(同時に処理される画像の数)を増やすことをお勧めします:)
robintibor
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.