画像を正規化する方法にはいくつかのバリエーションがありますが、ほとんどは次の2つの方法を使用しているようです。
- すべての画像について計算されたチャネルごとの平均値を引きます(例: VGG_ILSVRC_16_layers)
- すべての画像について計算されたピクセル/チャネルで減算します(例:CNN_S、Caffeの参照ネットワークも参照)
私の考えでは、自然なアプローチで各画像を正規化します。昼光下で撮影された画像は、夜間の画像よりも多くのニューロンを発火させますが、通常、エッジなどに存在するより興味深い特徴に関心がある時間を通知する場合があります。
Pierre Sermanetは3.3.3で、画像ごとのローカルコントラスト正規化を参照していますが、これまでに見た例/チュートリアルではこれに遭遇していません。また、興味深いQuoraの質問とXiu-Shen Weiの投稿を見ましたが、上記の2つのアプローチをサポートしていないようです。
正確に何が欠けていますか?これは色の正規化の問題ですか、それとも多くの人がこのアプローチを使用する理由を実際に説明する論文がありますか?