基本的に、巨大なデータセットに対して学習するには、2つの一般的な方法があります(時間/スペースの制限に直面している場合)。
- 不正行為:)-「管理可能な」サブセットのみをトレーニングに使用します。リターンの減少の法則により、精度の損失は無視できる場合があります。モデルの予測パフォーマンスは、すべてのトレーニングデータがモデルに組み込まれる前に、通常はフラットになります。
- 並列計算-問題を小さな部分に分割し、それぞれを別々のマシン/プロセッサーで解決します。ただし、アルゴリズムの並列バージョンが必要ですが、よく知られたアルゴリズムの多くは自然に並列です:最近傍、決定木など。
他の方法はありますか?それぞれを使用するときの経験則はありますか?それぞれのアプローチの欠点は何ですか?