「分割統治」データストリームアルゴリズム


12

巨大なデータストリームで機能し、その結果もかなり小さく、何らかの方法で結果をマージすることで2つのストリームの混合の結果を計算できる、有用なアルゴリズムは何ですか?

いくつか例を挙げます:

  • sum、min、max、count、top-Kなどの明らかなもの
  • ヒストグラム、個別のアイテムのカウント、または分位の計算のための、いわゆる「スケッチベース」ストリームアルゴリズムの近似

他に何がありますか?

(私は、その有用性がそのようなアルゴリズムの有用性によって直接決定される分散システムを監視するための趣味のプロジェクトを書いているので、興味があります)


「分割して征服する」/連想的でないストリーミングアルゴリズムを考えるのははるかに難しいと思います。たぶんある種のローリングハッシュ関数...そのようなストリームアルゴリズムの自然な例はありますか?
トーマスエール

回答:


9

グハ等。'03は、ストリーミングモデルでのk中央値クラスタリングの近似アルゴリズムを示します。彼らのアルゴリズムは、データをばらばらの断片に分割し、各ばらばらでない断片のO(k)中心を見つけ、その結果を結合してk個の中心を取得します。これはあなたが探しているタイプのアルゴリズムのようです。


7

εε番目1番目-レベルストリーム、レベル0は元のストリームです)。これは本質的に、分割統治戦略のボトムアップレンダリングです。再帰ツリーの「エッジ」に沿って更新されます。構造的には、Levが言及したGuhaらの論文と非常によく似ています。


6

私は、ストリームの頻度分布のすべての関数がマージ可能であると言う論文(「頻度に依存するデータストリームの計算の配布」)を見つけました(ただし、マージ操作の明示的かつ効率的な構成は提供しません)。そして、その証明は、いくつかのリング理論を含む非常に興味深いようです。同じ著者(「データストリームの周波数推定の下限」)による以前の論文を読む必要があり、その主な結果がこの論文の基礎として使用されています。

これは、第三準同型定理を思い出させます...


Gangulyの論文は、分割統治戦略がストリーミングに有効であることを意味するとは思わない。そのモデルはMapreduce / MUDモデルに還元されるようで、データの複数のパスが存在する可能性があります。
Suresh Venkat

読むと、結局複数のパスを使用しないように思えます。
jkff

4

連続ストリームクエリ言語の研究により、洞察が得られる場合があります。そのような言語の1つがCQLです。これはOracleに採用されていると思います。この言語では、ストリームのスライディングウィンドウ(サイズ1のウィンドウを含む)で関数を計算できます。この学士論文は、いくつかの例を含む言語の最近の概要を提供します。このホワイトペーパーでは、他の関連研究へのリンクを見つけるのに役立つストリーム処理言語の概要を説明します。

これはあなたの質問に直接答えるものではないことは知っていますが、同じ出発点から出発する人々によって行われた研究に連絡を取るべきです。


4

この質問は私には少し循環的なようです。問題に目的のプロパティがある場合、スケッチとマージに基づいたアルゴリズムがあります。上記のように、それを提供するクラスタリング、近似、およびコアセットに関する作業があります。また、ほとんどのストリーミングアルゴリズムでは、1つのストリームを他のストリームに(概念的に)連結するだけでストリームをマージできます。

また、top-kストリーミングアルゴリズムがマージ可能かどうかはわかりませんが、間違っている可能性があります。


Top-kは簡単にマージできます。kアイテムの2つのリストをマージするには、それらをマージして、結果の最後のkアイテムを取得します:)しかし、おそらく「トップk最も頻繁」を意味しますが、これは(これもたとえば、Facebookの壁のようなものの分散計算に役立つ問題)
-jkff

3

これを壊して申し訳ありませんが、複数のストリームが与えられ、通信を最小限に抑えながら中央の監視サイトで集計統計を監視することが目標である、ストリームの分散連続監視に関するいくつかの作業を見てみたいと思うかもしれません。モデルは、あなたの動機に密接に関連しているように思えます。Muthuの本の参考文献を見てください。1つの論文はこれです。

Gangulyの論文も非常に興味深いものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.