ディープラーニングで正方形の画像を使用する理由

VGG、ResNetなどの高度なディープラーニングモデルのほとんどは、入力として正方形の画像を必要とします。通常、ピクセルサイズは $224x224$ です。

入力が同じ形状でなければならない理由はありますか、または convnetモデルを構築できますか？ $100x200$ なければならない（たとえば、顔の認識を行いたい場合や、縦向きの画像がある場合）。

ピクセルサイズを大きくすると、 $512x512$ メリットが増えますか？

deep-learning image-classification image-recognition

— 胞子234
ソース

畳み込みニューラルネットワークが正常に機能するために、特定のピクセル寸法が必要になることはありません。値は、実際の理由で選択された可能性があります。たとえば、画像の詳細とパラメーターの数の使用と必要なトレーニングセットのサイズとの妥協点などです。

さらに、ソースデータにさまざまな縦横比（縦向き、横向き）の範囲があり、通常はターゲットオブジェクトが中央にある場合、中央から正方形の切り抜きを取得することは妥当な妥協案です。

入力画像のサイズを大きくすると、その入力を処理するためにネットワークが処理する必要のあるノイズと分散の量も大きくなります。つまり、畳み込みとプーリングの両方で、より多くの層を意味する可能性があります。また、より多くのトレーニング例が必要になる場合もあります。もちろん、各トレーニング例は大きくなります。これらを組み合わせると、トレーニングを完了するために必要な計算リソースが増えます。ただし、この要件を克服できる場合、余分なピクセルによって違いが生じる可能性のあるすべてのタスクについて、より正確なモデルになる可能性があります。

より高い解像度が必要かどうかの1つの可能な経験則は、ネットワークの目標に対して、人間の専門家が追加の解像度を利用してタスクでより良いパフォーマンスを発揮できるかどうかです。これは、ネットワークが画像からいくつかの数値を導出している回帰システムの場合に該当する可能性があります。たとえば、顔の特徴間の距離などの生体認証を抽出する顔認識の場合などです。自動マスキングなどの画像処理タスクにとっても望ましい場合があります。これらのタスクの最新の結果は、実際に適用したい商用画像よりも解像度が低い場合があります。

— ニール・スレーター
ソース