データを再シャッフルする必要がありますか？

入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット（70％）とテストセット（30％）に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。（この分割が問題のある分割だったことを示すものはありません）。

— DavidDong
ソース

データをどのように分割しましたか？ランダム、手作業、または他の方法？実際には、「モデルの作成に成功」に関する部分は、問題のかなり大きな部分です。費用のかかることをする前に、適切なタイプのモデルを使用しているかどうか、トレーニングデータをオーバーフィットしているかどうか、予測しようとしていることに適切なデータがあるかどうかを確認する必要があります。

— ウェイン

ところで、「モデルの作成に成功」する前に、皮肉モードをオンにするのを忘れました

— DavidDong

既にホールドアウトサンプルを使用しているため、すべてのモデルが機能間の同じ関係を考慮するように、それを保持し、同じモデルで新しいモデルを構築する必要があると思います。さらに、特徴選択を実行する場合、これらのフィルタリング段階の前にサンプルを除外する必要があります。つまり、特徴選択は交差検証ループに含まれている必要があります。

注目すべきことに、モデル選択には0.67 / 0.33分割より強力な方法があります。つまり、k分割交差検証またはリーブワンアウトです。参照、例えば 統計学習のザ・エレメント（§7.10、PP。241-248）、www.modelselection.orgまたはモデル選択のためのクロスバリデーション手順の調査 ArlotとCelisseによって（より高度な数学的背景が必要）。

— chl
ソース