これは非常に良い質問であり、ディープラーニングについて理解を深めるには、これを理解する必要があります。
基本的に、あなたは生の画像を持っています、1枚の画像を撮りましょう。この画像には3つのチャネルがあり、各チャネルのピクセル値の範囲は0〜255です。
ここでの目標は、3つのチャネルのすべてのピクセルの値の範囲を非常に小さな範囲に縮小することです。これが前処理の出番です。しかし、前処理には平均と標準の技術しか含まれていないと考えてはいけません。PCA、ホワイトニングなど、他にもたくさんあります。
1)平均の使用:平均を計算することにより、すべてのトレーニング画像にわたる最初の赤いピクセル値は、最初の位置にあるすべてのトレーニング画像にわたって存在する平均赤い色値を取得します。同様に、すべての赤のチャネル値、緑のチャネル値についてこれを見つけます。最後に、すべてのトレーニング画像から平均画像を取得します。
すべてのトレーニング画像からこの平均画像を差し引くと、画像のピクセル値が明らかに変換され、画像は人間の目では解釈できなくなります。ピクサル値は、平均がゼロにある正から負の範囲にあります。 。
2)次に、これらをstd偏差で除算すると、基本的にピクセル値の範囲を小さい範囲に縮小します。
しかし、なぜこれがすべてなのか?私の経験から、この前処理を画像で実行してから、これらの変換された画像を分類子モデルに与えると、実行速度が速くなり、より良くなると言います。それが理由です。
ディープラーニングに興味があるときは、この正規化の概念を理解した後、バッチ正規化を調べてください。