画像分類にニューラルネットワークを使用したいと思います。事前に訓練されたCaffeNetから始めて、アプリケーション用に訓練します。
入力画像をどのように準備すればよいですか?
この場合、すべての画像は同じオブジェクトですが、バリエーションがあります(品質管理と考えてください)。それらは多少異なる縮尺/解像度/距離/照明条件にあります(多くの場合、縮尺がわかりません)。また、各画像には、ネットワークが無視する対象オブジェクトの周囲の領域(既知)があります。
(たとえば)各画像の中心を切り取ることができます。これには、関心のあるオブジェクトの一部が含まれ、無視される領域は含まれないことが保証されています。しかし、それは情報を捨ててしまうように思われ、また結果は実際には同じスケールではありません(おそらく1.5倍のバリエーション)。
データセットの増強
ランダムクロップ/ミラー/その他によってさらにトレーニングデータを作成することを聞いたことがありますが、これに標準的な方法はありますか?分類器の精度がどれだけ向上するかについての結果はありますか?