私の質問:比較的大きなデータセットでもCVを実行する必要がありますか?
比較的大きなデータセットを持っているので、そのデータセットに機械学習アルゴリズムを適用します。
私のPCは高速ではないため、CV(およびグリッド検索)に時間がかかりすぎることがあります。特に、SVMは多くのチューニングパラメータのために終了することはありません。したがって、CVを実行する場合、比較的小さなデータを選択する必要があります。
一方、検証セットも大きくなければならないので、トレーニングセットと同じ(またはより大きい)サイズの検証セットを使用することをお勧めします。(つまり、CVの代わりに、パラメーター調整に大規模な検証セットを使用します。)
ですから、少なくとも2つの選択肢があります。
- 小さなデータセットでCVを実行します。
- CVなしで比較的大きなトレーニングセットと検証セットを使用します。
- 他のアイデア。
最高のアイデアは何ですか?理論的または実際的な意見はどちらも歓迎します。