画像分類のための非正方形画像

9

ワイド画像のデータセットがあります：1760x128。私はチュートリアルと本を読みましたが、それらのほとんどは入力画像が正方形である必要があると述べており、そうでない場合は、すでに訓練された（正方形の画像で）cnnsで訓練するために正方形に変換されます。正方形以外の画像に対してcnnをトレーニングする方法はありますか、またはパディングとして別のオプションを探す必要がありますか？

conv-neural-network

— 出来上がり
ソース

4

分類子に応じて、問題を解決するいくつかの方法があります。スライディングウィンドウは、私が最もよく知っている方法です。これは、ニューラルネットワークの方法に使用されます。この方法では、小さなサブイメージを取得し、オーバーラップして上下にシフトします。いくつかの問題には、最適なシフトパラメーターとマルチスケールの問題を見つけることが含まれます。

通常、最終的な検出は、分類子がそのクラスに属しているという分類子の信頼度によって決定されます。以下にいくつかの資料をリストしました。最初の資料はHOG分類子メソッド用ですが、概念は同じです。

— ジョセフ・サンタルカンジェロ
ソース

2

CNNを使用している場合、これによって問題が発生することはありません。私は顔を認識するためにCNNを作成しました。通常、顔の幅は高さの70％程度であるため、80x100ピクセルのトレーニング画像を使用しました（頭が斜めになっている場合は少し幅を広げます）。ただし、フィルターは正方形である必要があります。

そのすべての変更は、サイズを示す1つの値だけでなく、アクティブ化/プールされたマップの幅と高さを追跡する必要があるということです。例えば -

80 x 100の入力画像5 x 5のたたみ込みフィルターを適用すると、76 x 96でアクティベーションのマップが得られます2 x 2を適用すると、38 x 48でプールされたアクティベーションのマップが得られます

— ロボット
ソース