機械学習の研究における検証について具体的な質問があります。
私たちが知っているように、機械学習体制は、トレーニングデータでモデルをトレーニングし、検証セットで候補モデルから選択し、テストセットで精度を報告するように研究者に求めます。非常に厳密な研究では、テストセットは1回しか使用できません。しかし、論文を発表する(または提出する)前に、テストの精度が最新の結果よりも良くなるまでパフォーマンスを改善する必要があるため、研究シナリオになることはありません。
ここで問題が発生します。50%が最も最先端の結果であり、私のモデルは一般に50--51の精度を達成できるとしましょう。これは平均して優れています。
ただし、私の最高の検証精度(52%)では、テスト精度が非常に低くなります(例:49%)。次に、検証accをさらに改善できない場合、全体的なパフォーマンスとして49%を報告する必要がありますが、これは望みではありません。これは本当に私が問題を研究することを妨げますが、私の仲間にとっては問題ではありません。52%のaccが見られないからです。
では、人々は通常どのように研究を行っていますか?
同じ状況が発生する可能性があるため、ps k-fold検証は役に立ちません。