私はマスターを卒業しようとしており、機械学習について学び、それを使って研究プロジェクトを実行していました。ビッグデータセット(100 GBまたはTBなど)で機械学習タスクを実行するときの業界のベストプラクティスについて知りたいです。仲間のデータサイエンティストが彼らの経験を共有できるかどうか感謝します。ここに私の質問があります:
- 明らかに、非常に大きなデータセットはトレーニングに長い時間がかかります(数日または数週間になる場合があります)。多くの場合、さまざまなモデル(SVM、ニューラルネットワークなど)をトレーニングして、より良いパフォーマンスモデルを比較して見つける必要があります。業界のプロジェクトでは、できるだけ早く結果を出したいのですが、最高のパフォーマンスが得られると思います。トレーニングとテストの時間を短縮するためのヒントはありますか?データセットをサブセット化することをお勧めする場合は、データセットをサブセット化して、データセットのシナリオのすべてまたは大部分をカバーするのに最適な方法を知りたいと思います。
- 交差適合を実行すると、過剰適合が減少する可能性があるため、より良いことはわかっています。ただし、相互検証はトレーニングにも時間がかかり、相互検証でトレーニングされたモデルは直接実装されない可能性があります(Python sklearnエクスペリエンスから言えば、実装するクロス検証テストの後に、モデルをデータセットで再度トレーニングする必要があります)。通常、ビッグデータプロジェクトで相互検証を行っていますか、それともトレーニングテストの分割で問題を解決していますか?
フィードバックに感謝します。