巨大なデータストリームで機能し、その結果もかなり小さく、何らかの方法で結果をマージすることで2つのストリームの混合の結果を計算できる、有用なアルゴリズムは何ですか?
いくつか例を挙げます:
- sum、min、max、count、top-Kなどの明らかなもの
- ヒストグラム、個別のアイテムのカウント、または分位の計算のための、いわゆる「スケッチベース」ストリームアルゴリズムの近似
他に何がありますか?
(私は、その有用性がそのようなアルゴリズムの有用性によって直接決定される分散システムを監視するための趣味のプロジェクトを書いているので、興味があります)