私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると:
- Follow-the-Regularized-Leader and Mirror Descent:等価定理とL1正則化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf)
- ストリーミング学習:ワンパスSVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf)
- Pegasos:SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- またはここ:SVMは一度に1つの例をストリーム学習できますか?
- ストリーミングランダムフォレスト(http://research.cs.queensu.ca/home/cords2/ideas07.pdf)
しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。
私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです!
あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか?できるだけ多くの方法をレビューしようとしている論文はありますか?
7
ない場合は、自分で書いてください:)
—
クリスC
アカデミアの人々は論文を書く/新しいアルゴリズムを考え出す必要があり、アルゴリズムが最もよく機能するデータセットを検索することを理解しています。vowpal-wabbitなどの1つのライブラリの実行方法(つまり、すべてのパラメーターなど)を理解しておくことをお勧めします。
—
seanv507
それは実際には反対です!私は、人々が最良のデータセットを選択し、一般的にアルゴリズムをどのように交差検証したか(彼らと競合する方法の両方)について比較的静かであることを理解しました。私はむしろのストリーミングバージョンを探していますjmlr.org/papers/volume15/delgado14a/delgado14a.pdf
—
RUser4512
あなたがリンクしたJMLR論文が本当に好きです。私自身も、ストリーミングアルゴリズムの同様の比較を知りません。おそらく、ストリーミングはよりニッチであり、静的データセットの分類子を比較することはすでに困難ですが、ストリーミングデータの公平な比較を行うのはさらに複雑だからです。
—
stats0007
これらは、特にあなたの質問に答えていませんが、二つの関連リソースは次のとおりです。データストリームから学ぶの評価アルゴリズム。ガマら、評価手法について説明することによって、及びMOA(大規模なオンライン分析)組み込まれて、データストリームマイニングのためのオープンソースのフレームワークパフォーマンスを評価する機能。
—
user77876