巨大なデータセットから学ぶときのアプローチ?


10

基本的に、巨大なデータセットに対して学習するには、2つの一般的な方法があります(時間/スペースの制限に直面している場合)。

  1. 不正行為:)-「管理可能な」サブセットのみをトレーニングに使用します。リターンの減少の法則により、精度の損失は無視できる場合があります。モデルの予測パフォーマンスは、すべてのトレーニングデータがモデルに組み込まれる前に、通常はフラットになります。
  2. 並列計算-問題を小さな部分に分割し、それぞれを別々のマシン/プロセッサーで解決します。ただし、アルゴリズムの並列バージョンが必要ですが、よく知られたアルゴリズムの多くは自然に並列です:最近傍、決定木など。

他の方法はありますか?それぞれを使用するときの経験則はありますか?それぞれのアプローチの欠点は何ですか?

回答:


10

ストリームマイニングは1つの答えです。それはまた呼ばれます:


MOAツールボックスは、開始するのに適した場所となることに同意しました
tdc

7

サブセットを1つだけ使用する代わりに、ミニバッチ学習のように複数のサブセットを使用できます(たとえば、確率的勾配降下法)。この方法でも、すべてのデータを利用できます。


ああ、それは良い点です-私は質問を明確にしました。時間/スペースの制限に直面し、ミニバッチ学習に「余裕がない」というシナリオに興味があります。
andreister

1

バギングやブレンディングのようなアンサンブル-データが浪費されることはなく、問題は自動的に自明に並列になり、精度/堅牢性が大幅に向上する可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.