入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。
1
データをどのように分割しましたか?ランダム、手作業、または他の方法?実際には、「モデルの作成に成功」に関する部分は、問題のかなり大きな部分です。費用のかかることをする前に、適切なタイプのモデルを使用しているかどうか、トレーニングデータをオーバーフィットしているかどうか、予測しようとしていることに適切なデータがあるかどうかを確認する必要があります。
—
ウェイン
ところで、「モデルの作成に成功」する前に、皮肉モードをオンにするのを忘れました
—
DavidDong