最先端のストリーミング学習


25

私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると:

しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。

私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです!

あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか?できるだけ多くの方法をレビューしようとしている論文はありますか?


7
ない場合は、自分で書いてください:)
クリスC

1
アカデミアの人々は論文を書く/新しいアルゴリズムを考え出す必要があり、アルゴリズムが最もよく機能するデータセットを検索することを理解しています。vowpal-wabbitなどの1つのライブラリの実行方法(つまり、すべてのパラメーターなど)を理解しておくことをお勧めします。
seanv507

1
それは実際には反対です!私は、人々が最良のデータセットを選択し、一般的にアルゴリズムをどのように交差検証したか(彼らと競合する方法の両方)について比較的静かであることを理解しました。私はむしろのストリーミングバージョンを探していますjmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512

1
あなたがリンクしたJMLR論文が本当に好きです。私自身も、ストリーミングアルゴリズムの同様の比較を知りません。おそらく、ストリーミングはよりニッチであり、静的データセットの分類子を比較することはすでに困難ですが、ストリーミングデータの公平な比較を行うのはさらに複雑だからです。
stats0007

1
これらは、特にあなたの質問に答えていませんが、二つの関連リソースは次のとおりです。データストリームから学ぶの評価アルゴリズム。ガマら、評価手法について説明することによって、及びMOA(大規模なオンライン分析)組み込まれて、データストリームマイニングのためのオープンソースのフレームワークパフォーマンスを評価する機能。
user77876

回答:


1

リンクしたDelgadoの論文に似た複数のアルゴリズムの厳密な調査は、私が知る限り入手できませんが、アルゴリズムのファミリの結果を収集する努力がなされています。

役に立つと思われる情報源をいくつか紹介します(免責事項:私はその地域で公開しているため、選択に偏っている可能性があります)。

いくつかのソフトウェアパッケージ:

必要に応じて、さらに情報とソースを追加できます。他の人が言ったように、この分野は包括的な調査を使うことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.