私は、TensorFlowの事前にトレーニングされた畳み込みニューラルネットワークのモデルを使用しています。
https://github.com/tensorflow/models/blob/master/slim/nets/resnet_v2.py#L130
次の文が見つかりました:
ただし、密な予測タスクの場合は、32の倍数である1の空間次元を持つ入力を使用することをお勧めします(例:[321、321])。
この文献の密な予測とは何か知っていますか?
1
「コンピュータービジョンでは、ピクセル単位の高密度予測は、画像内の各ピクセルのラベルを予測するタスクです。」semanticscholar.org/paper/...
—
ダル