トレイン/有効/テストセットの平均の減算に関する質問

私はデータの前処理を行っており、後でデータにConvonetsを構築します。

私の質問は、100個の画像を含む合計データセットがあるとします。100個の画像のそれぞれについて平均を計算し、それを各画像から差し引いて、これをトレーニングセットと検証セットに分割しました。特定のテストセットで処理する手順ですが、このリンクによると、これは正しい方法ではないようです。http：//cs231n.github.io/neural-networks-2/#datapre

" 一般的な落とし穴。前処理に関して重要なポイントは、前処理の統計情報（データ平均など）はトレーニングデータでのみ計算し、検証/テストデータに適用する必要があることです。たとえば、平均の計算とそれからの減算データセット全体のすべての画像と、データをtrain / val / test分割に分割するのは誤りです。代わりに、平均はトレーニングデータに対してのみ計算され、すべての分割から均等に減算される必要があります（train / val / test）。」

著者が言っているのは、平均を計算して各画像内で減算せず、画像セット全体の平均（つまり（image1 + ... + image100）/ 100）を計算して平均を減算することだと思いますそれぞれの画像。

だれでも説明できるのかよくわかりません。また、おそらく私がやっていたことが間違っている理由を説明することもできます（実際に間違っている場合）。

machine-learning cross-validation data-preprocessing

— サム
ソース

コミュニティへようこそ。以下の私の答えを見てください。

— usεr11852

合計100枚の画像があるとします。90はトレーニングデータ、10はテストデータです。

$\hat{\mu}$ $\hat{\mu}$

— usεr11852
ソース

\hat{μ}

$\hat{\mu}$

\hat{μ}

$\hat{\mu}$

@usεr11852情報量が多いとモデルに害が及ぶのはなぜですか？これは、「サンプル外応答変数」の情報を引き起こさないでしょう。何らかの方法でトレーニングに干渉しますよね？では、なぜ列車エラーは低いのでしょうか？

— GeneX、2017年

\hat{μ}

$\hat{\mu}$

...いくつかのまぐれによって、すべての高齢者は最終的にテストセットになります。トレーニングセットのみで平均年齢を計算すると、サンプル全体の平均年齢よりも明らかに低くなります。この明らかに偏った平均年齢を使用すると、異なる年齢にうまく一般化されないA場合、モデルのパフォーマンスが低下する可能性がありAます。データセット全体の平均年齢を計算すると、より代表的な平均年齢が得られます。モデルでこの不偏平均年齢を使用すると、さまざまな年齢層に一般化されていなくてAも、おそらく以前よりも優れたパフォーマンスが得られますA。）

— usεr11852Nov