回答:
分類子に応じて、問題を解決するいくつかの方法があります。スライディングウィンドウは、私が最もよく知っている方法です。これは、ニューラルネットワークの方法に使用されます。この方法では、小さなサブイメージを取得し、オーバーラップして上下にシフトします。いくつかの問題には、最適なシフトパラメーターとマルチスケールの問題を見つけることが含まれます。
通常、最終的な検出は、分類子がそのクラスに属しているという分類子の信頼度によって決定されます。以下にいくつかの資料をリストしました。最初の資料はHOG分類子メソッド用ですが、概念は同じです。
CNNを使用している場合、これによって問題が発生することはありません。私は顔を認識するためにCNNを作成しました。通常、顔の幅は高さの70%程度であるため、80x100ピクセルのトレーニング画像を使用しました(頭が斜めになっている場合は少し幅を広げます)。ただし、フィルターは正方形である必要があります。
そのすべての変更は、サイズを示す1つの値だけでなく、アクティブ化/プールされたマップの幅と高さを追跡する必要があるということです。例えば -
80 x 100の入力画像5 x 5のたたみ込みフィルターを適用すると、76 x 96でアクティベーションのマップが得られます2 x 2を適用すると、38 x 48でプールされたアクティベーションのマップが得られます