最先端のストリーミング学習

私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると：

Follow-the-Regularized-Leader and Mirror Descent：等価定理とL1正則化（http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf）
ストリーミング学習：ワンパスSVM（http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf）
Pegasos：SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
またはここ：SVMは一度に1つの例をストリーム学習できますか？
ストリーミングランダムフォレスト（http://research.cs.queensu.ca/home/cords2/ideas07.pdf）

しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。

私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです！

あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか？できるだけ多くの方法をレビューしようとしている論文はありますか？

— RUser4512
ソース

ない場合は、自分で書いてください:)

— クリスC

アカデミアの人々は論文を書く/新しいアルゴリズムを考え出す必要があり、アルゴリズムが最もよく機能するデータセットを検索することを理解しています。vowpal-wabbitなどの1つのライブラリの実行方法（つまり、すべてのパラメーターなど）を理解しておくことをお勧めします。

— seanv507

それは実際には反対です！私は、人々が最良のデータセットを選択し、一般的にアルゴリズムをどのように交差検証したか（彼らと競合する方法の両方）について比較的静かであることを理解しました。私はむしろのストリーミングバージョンを探していますjmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

あなたがリンクしたJMLR論文が本当に好きです。私自身も、ストリーミングアルゴリズムの同様の比較を知りません。おそらく、ストリーミングはよりニッチであり、静的データセットの分類子を比較することはすでに困難ですが、ストリーミングデータの公平な比較を行うのはさらに複雑だからです。

— stats0007

これらは、特にあなたの質問に答えていませんが、二つの関連リソースは次のとおりです。データストリームから学ぶの評価アルゴリズム。ガマら、評価手法について説明することによって、及びMOA（大規模なオンライン分析）組み込まれて、データストリームマイニングのためのオープンソースのフレームワークパフォーマンスを評価する機能。

— user77876

リンクしたDelgadoの論文に似た複数のアルゴリズムの厳密な調査は、私が知る限り入手できませんが、アルゴリズムのファミリの結果を収集する努力がなされています。

役に立つと思われる情報源をいくつか紹介します（免責事項：私はその地域で公開しているため、選択に偏っている可能性があります）。

データストリーム分類のためのアンサンブル学習に関する調査（調査）
オンライン学習とオンライン凸最適化（テクニカルレポート）
ビッグデータストリームでのオンライン機械学習（調査）
データストリームの機械学習（書籍）
進化するデータストリームの回帰ツリーとアンサンブルを学習するためのアルゴリズム（博士論文）
コンセプトドリフトで学ぶ：概要（調査）
最適かつ適応可能なオンライン学習（博士論文）
データストリームと頻出パターンの適応学習とマイニング（博士論文）

いくつかのソフトウェアパッケージ：

必要に応じて、さらに情報とソースを追加できます。他の人が言ったように、この分野は包括的な調査を使うことができます。

— バー
ソース