たたみ込みニューラルネットワークは、異なるサイズの入力画像として使用できますか？

私は画像認識のための畳み込みネットワークに取り組んでおり、さまざまなサイズの画像を入力できるかどうかは疑問に思っていました（ただし、それほど大きくはありません）。

このプロジェクト：https : //github.com/harvardnlp/im2markup

彼らが言う：

and group images of similar sizes to facilitate batching

したがって、前処理を行った後でも、画像のサイズは異なります。これは、式の一部を切り取らないため意味があります。

異なるサイズの使用に問題はありますか？ある場合、どのようにこの問題に取り組むべきですか（式がすべて同じ画像サイズに収まらないため）？

どんな入力でも大歓迎です

neural-networks conv-neural-network computer-vision

— グラハムスリック
ソース

回答:

異なるサイズの使用に問題はありますか？ある場合、どのようにこの問題に取り組むべきですか（式がすべて同じ画像サイズに収まらないため）？

それはニューラルネットワークのアーキテクチャに依存します。一部のアーキテクチャは、すべての画像が同じ次元であると想定していますが、他のアーキテクチャ（im2markupなど）はこのような想定をしていません。im2markupが異なる幅の画像を許可するという事実は、畳み込み層の出力をスキャンするRNNを使用するため、私が信じている問題はありません。

類似したサイズの画像をグループ化してバッチ処理を容易にする

これは通常、余計なパディングを追加しないようにして、処理速度を上げるためです。

— フランク・ダーノンコート
ソース

前処理段階で単に画像をスケーリングすることを検討しましたか？直感的に、スケーリングされた画像に直面している人間は、同じ機能とオブジェクトを認識することができます。CNNがスケーリングされた画像に対して同じことを行えないという明確な理由はありません。

画像を同じサイズにスケーリングすることは、畳み込みネットワークにさまざまなサイズの画像を処理させようとするよりも簡単かもしれないと思います。再トレーニングすることなく、convnetのconvレイヤーが任意のサイズの画像を処理できるようにすることができます。ただし、convnetの出力は通常、ある種の分類子であり、おそらくこれはあまり機能しません。異なるサイズの入力をフィードする場合、私は想像するでしょう。

別のアプローチは、画像にゼロを埋め込むことです。しかし、直感的に、黒い境界線が埋め込まれた小さな写真を見ているか、ズームインできるので、視野内に適度な弧を描いていると想像してください。どちらにしますか？どちらが見やすいですか？

— ヒュー・パーキンス
ソース

スケーリングでは画像の品質は低下しませんが、エラーや変形機能が発生します。すでに画像が低解像度の場合、スケーリングによって画像の品質が低下し、人間でも簡単には認識できませんが、スケーリングされていない画像は認識できます。

— Vikram Bhat 2017

スケーリングを適用しない限り、人間が認識できる画像の例はありますか？

— ヒューパーキンス

私もこれを考えています。ケラスの既存のトレーニング済みモデルを使用しようとすると、画像を拡大してInceptionV3インターフェイス（32x32から299x299-> CIFAR10）に合わせて拡大できると思います。スケーリングは品質を失うと思います。しかし、適切な方法は、出力FCを除外し、入力形状を32x32に指定することです。ただし、入力レイヤーの重みはランダムであるため、再トレーニングが必要になると思います。

— ジョーイカーソン

スケーリングは品質を低下させますが、一般化に役立ちます。トレーニングの前にガウスぼかしが適用されたときに認識の顕著な向上を指摘した多くの論文があります。直感的には、単一の「ぼやけた」画像に似たさまざまな入力サンプルがあるため、分類がより堅牢になります。

— Matthieu