回答:
ここに問題があります。
不透明な学習アルゴリズムでは、目的の問題領域に共通するより深い構造について何かが実際に学習されたか(何かが見つかると仮定して)、特定の入力を認識して吐き出すことを学習したかどうかを理解する必要がありますそれらの入力に対してのみ望ましい答え(「テストを記憶する」だけで、それ以外の手がかりがない学校の子供たちに似ています)。後者は、トレーニングデータが目的の問題空間のごく一部のみで構成されている場合にはあまり役に立ちません。
そのため、正しい答えを出すまで、1つのデータセットでアルゴリズムをトレーニングします。次に、訓練されたアルゴリズムがこれまでに見たことのないいくつかの異なるテストデータに入力を変更し、それでも有用な答えが得られるか、または元の訓練セットの内容のみで実際に機能するかどうかを確認します。これがテストデータセットです。
実世界のデータがある場合、それを2つのばらばらのセットに分割し、トレーニング中にアルゴリズムがテストセットを認識しないようにするのが一般的です。先生が学期の終わりまでクイズの質問を締め出すように。
データセットで機械学習アルゴリズムを使用する場合、データの一部(トレーニングセット)を使用してアルゴリズム(つまり、特徴抽出)をトレーニングします。トレーニングが完了したら、トレーニング済みアルゴリズムのパフォーマンスを評価する必要があります。これは、新しいデータ、つまり元のデータ(テストデータ)の2番目の部分にそれを適用することによって行います。
この戦略を使用すると、トレーニングしたアルゴリズムが実際にデータの有効な特徴を抽出するかどうか(つまり、トレーニングデータとテストデータでうまく機能するか)、または「過剰学習」または「過剰適合」したか(つまり、それはトレーニングデータでのみ良好に機能し、テストデータでは不良です)。
OPの質問に直接回答するには:「トレーニングデータは、特徴抽出とも呼ばれる前処理段階の後に取得するデータですか?
いいえ、それ(つまり、特徴抽出)は、データのセットを「トレーニングデータ」にするものではありません。テストデータからトレーニングデータと同じ機能を抽出する必要があります。これらの用語を区別するための一連のステップの例を以下に示します。
ここで、テストデータは元の入力です。私は正しいですか?
テストデータは、モデルのパラメーターを選択/学習する際に保管しておくデータです。後でこのデータを使用して、モデルがどれだけ優れているかをテストします。重要な前提は、テストデータの分布がトレーニングデータの分布と同じであることです。