一般的な方法
a)トレーニングデータ-モデルパラメーターの選択に使用。
i) E.g., finding intercept and slope parameters for an ordinary linear
regression model.
ii) The noise in the training data-set is used in some extent
in over-fitting model parameters.
b)検証データ-ハイパーパラメーターの選択に使用されます。
i) E.g., we may want to test three different models at step 1.a, say
linear model with one, two or three variables.
ii) The validation data-set is independent from training data, and thus, they provide
'unbiased' evaluation to the models, which help to decide which
hyper-parameter to use.
iii) We note that, a model trained in 1.a, say y = b_0+b_1*x_1, does
not learn anything from this data-set. So, the noise in this data-
set is not used to over-fit the parameters (b_0, b_1), but, over-
fit exists in choosing which linear model to use (in terms of
number of variables).
c)テストデータ-上記の2つのステップからの出力の信頼性を得るために使用
i) Used once a model is completely trained
パート1を見る別の方法
a)モデル候補プールは5次元セットです。つまり、
i) Dimension 1: number of variables to keep in the regression model,
e.g., [1, 2, 3].
ii) Dimension 2-5: (b_0, b_1, b_2, b_3).
b)ステップ1aは、モデルの候補を5次元から1次元に減らします。
c)ステップ1bは、モデルの候補を1次元から0次元(単一モデル)に減らします。
d)ただし、OPは、上記の「最終」出力がテストデータセットで十分に機能していないと考え、したがって、通常の線形回帰ではなくリッジ回帰を使用して、プロセス全体を再度やり直します。次に、テストデータセットが複数回使用されるため、このデータのノイズにより、線形回帰を使用するかリッジ回帰を使用するかを決定する際に過剰適合が生じる可能性があります。
e)パラメーター、ハイパーパラメーター、モデルタイプ、および前処理方法を備えた高次元モデルプールを扱うために、利用可能なデータへの分割は、基本的に意思決定プロセスを定義します。
i) Sequentially reducing the model pool to zero-dimension.
ii) Allocating data noise overfitting to different steps of dimension
reductions (overfitting the noise in the data is not avoidable but
could be allocated smartly).
結論とOPの質問への回答
a)2分割(トレーニングとテスト)、3分割(トレーニング、検証、テスト)またはそれ以上の数の分割は、基本的に次元の削減とデータの割り当て(特にノイズと過剰適合のリスク)に関するものです。
b)ある段階で、「最終的な」モデル候補プールを作成できます。次に、次元を順次減らすプロセスを次のように設計する方法を考えることができます。
i) At each step of reducing the dimensions, the output is satisfactory,
e.g., not using just 10 data points with large noise to estimate a
six-parameter liner model.
ii) There are enough data for you to reduce the dimension to zero
finally.
c)bを達成できない場合
i) Use model and data insight to reduce the overall dimensionality of
your model pool. E.g., liner regression is sensitive to outliers thus
not good for data with many large outliers.
ii) Choose robust non-parametric models or models with less number of
parameter if possible.
iii) Smartly allocating the data available at each step of reducing the
dimensionality. There is some goodness of fit tests to help us decide
whether the data we use to train the model is enough or not.