タグ付けされた質問 「data-streams」

5
複数のパスでst-connectivityのスペース使用量を削減しますか?
グラフ仮定と頂点のストリームとして提示されているエッジが、複数のパスがストリーム上許されます。n mGGGnnnmmm Monika Rauch Henzinger、Prabhakar Raghavan、およびSridar Rajagopalanは、データにパスが許可されている場合、 2つの与えられた頂点間にパスがあるかどうかを判断するためにスペースが必要であることを観察しました。(テクニカルレポートバージョンも参照してください。)ただし、実際にこの限界を達成するためのアルゴリズムは提供されていません。最適なアルゴリズムは、現実的なコンピューティングモデルで実際に空間を取ると仮定します。これは、一定サイズのポインターを使用してメモリのインデックスを作成できない場合、異なる頂点を区別する必要があるためです。G k O ((nΩ (n / k)Ω(n/k)\Omega(n/k)GGGkkknO ((nログn )/ k )O((nlogn)/k)O((n\, \log\, n)/k)nnn どのようにして、グラフの接続性を決定することができ使用して渡しO ((nはkkkスペース?O ((nログn )/ k )O((nlogn)/k)O((n\, \log\, n)/k) 1つのパスのみが許可されている場合、入力データは頂点のセットのパーティションとして保存でき、2つの異なるセットの頂点間にエッジが見られる場合はセットをマージできます。これには明らかにスペース。私の質問は k > 1についてです。必要なスペースを減らすために、どうすればより多くのパスを使用できますか?O(nログn )O(nlogn)O(n\, \log\, n)k > 1k>1k > 1 (自明性を避けるために、は定数でアプリオリに制限できないパラメーターであり、スペースの制限はnとkの両方の関数を含む式です。)kkknnnkkk 更新:場合でも、n / 2頂点のみを保存する方法があると本当に便利です。または、kに関係なく、定数cに対して実際にはより強い下限c nがありますか?k = 2k=2k=2n / 2n/2n/2c ncncnccckkk

2
最も頻繁に発生する「k」個のアルゴリズム
私は、データストリームで最も頻繁に発生する「k」個の要素をいつでも通知する最も効率的な(ストリーミング??)アルゴリズムを探してきました。この投稿:「分割統治」データストリームアルゴリズムに興味を持ちました。 たとえば、数字があると仮定します:(4,3,5,1,6,2,4,3,3,8,9,1)そして、最も頻繁に発生する3つの数字(たとえば)をクエリした後、答えとして(3,4,1)を取得します。 オンラインで検索しようとしましたが、アプローチを提供し、それが最良であると言う場所を見つけることができませんでした。些細な解決策は、ヒープまたはバランスの取れたバイナリツリーを使用することですが、より良い方法があると思い、それがどこかに文書化されているかどうかを知りたかったのです。 編集:私は、何らかの方法でデータの分布に依存する承認アルゴリズム(多くが検索結果にポップアップする)とは対照的に、常に正しい答えを与えるアルゴリズムを探しています

2
中央値選択のストレージ要件(2パスアルゴリズム)
古典的な論文で、マンロとパターソンは、アルゴリズムがランダムにソートされた配列の中央値を見つけるために必要なストレージの量の問題を研究しています。特に、次のモデルに焦点を当てています。 入力は、左から右へ数P回読み取られます。 それが示されているメモリセルで十分ですが、対応する下限はP = 1についてのみ知られています。P> 1の結果は見ていません。誰もそのような下限を知っていますか? O (n12 P)O(n12P)O(n^{\frac{1}{2P}}) ここでの主な難点は、2回目のパスで入力がランダムに順序付けされなくなることです。

5
ロスレス圧縮データの制限はどれですか?(そのような制限がある場合)
最近、私は圧縮関連のアルゴリズムを扱ってきましたが、ロスレスデータ圧縮で達成できる最高の圧縮率はどれなのか疑問に思っていました。 これまでのところ、このトピックで見つけることができた唯一のソースはウィキペディアでした。 ビデオ、デジタル化されたフィルム、オーディオなどのデジタル化されたデータのロスレス圧縮は、すべての情報を保持しますが、データの本質的なエントロピーにより、1:2圧縮よりもはるかに優れた結果を得ることができません。 残念ながら、ウィキペディアの記事には、この主張を裏付ける参照や引用は含まれていません。私はデータ圧縮の専門家ではないので、この件に関して提供できる情報、またはウィキペディアよりも信頼性の高い情報源を教えていただければ幸いです。

6
「分割統治」データストリームアルゴリズム
巨大なデータストリームで機能し、その結果もかなり小さく、何らかの方法で結果をマージすることで2つのストリームの混合の結果を計算できる、有用なアルゴリズムは何ですか? いくつか例を挙げます: sum、min、max、count、top-Kなどの明らかなもの ヒストグラム、個別のアイテムのカウント、または分位の計算のための、いわゆる「スケッチベース」ストリームアルゴリズムの近似 他に何がありますか? (私は、その有用性がそのようなアルゴリズムの有用性によって直接決定される分散システムを監視するための趣味のプロジェクトを書いているので、興味があります)

3
周波数モーメントの近似の限界
ましょう1、2、... 、mはそれぞれ整数のシーケンスであるJ ∈ { 1 、2 、... 、N }。以下のためのI ∈ { 1 、2 、... 、N }、聞かせて、M iは = | { j :a j = i } | 。K個の周波数モーメント番目はと定義されますa1、2、… 、ama1,a2,…,ama_1, a_2,\dotsc, a_maj∈ { 1 、2 、... 、N }aj∈{1,2,…,n}a_j \in \{1,2,\dotsc,n\}I ∈ { 1 、2 、... 、N }i∈{1,2,…,n}i \in \{1,2,\dotsc,n\}m私= | { …

4
継続的なクラスタリング
したがって、ライブで継続的にストリーミングするデータを使用したクラスタリングに関して、私が直面している問題があります。私は増え続けるデータセットを持っているので、効率的で効果的なクラスタリングを実行するための最良の方法は何なのかわかりません。私はいくつかの可能な解決策を考え出しました: 許可するデータポイントの数に制限を設定すると、別のデータポイントが最も古いポイントに到達するときに制限に達するたびに削除されます。本質的に、これは、古いデータは、私たちがそれを捨てることによって失うものを気にするほど私たちにとって十分に関連性がないことを示唆します。 適切なクラスタリングを行うのに十分なデータが揃ったら、すべてのデータを再クラスタリングするのではなく、この「セットアップ」を検討し、新しいポイントが発生したら、新しいポイントが最も近いクラスタ中心を見つけてそれに追加します。ここでの利点は、すべての新しいポイントで再クラスター化する必要がなくなり、他のすべてのポイントを格納する必要がなく、クラスター化を「十分」に考慮してクラスターセンターのみを格納する必要があることです。欠点は、最初からすべてのデータポイントを使用してアルゴリズムを再実行すると、より正確になる可能性があることです。 これらは私がブレインストーミングしたいくつかの潜在的な解決策ですが、この問題に直面するためのよりよく知られた手法があるかどうか知りたいです。私はGoogleのようなサイトが何らかの形でそれに対処しなければならなかったと思います(そして、「RAM、サーバー、プロセッサーをさらに追加する」または「データセンターを継続的に拡張する」が利用可能な唯一の答えではないことを願っています)。

2
ストリームのグラフ接続のチェックの下限
パスのストリームの接続問題を解決するために、スペースの下限のステータスを確認したいと思います。文献に記載されたが、わずかに異なる問題のためであると考えられます。私は何か見落としてますか?詳細は以下。 Ω (N / P )pppΩ (n / p )Ω(ん/p)\Omega(n/p) ストリーム内の個の頂点のグラフ(エッジはストリーミング方式で1つずつ提示される)が与えられた場合、が接続されているかどうかを確認します。アルゴリズムがパスのストリームの読み取りを許可されている場合、アルゴリズムがこの問題を解決するために必要な最小スペースはどれくらいですか?n G pGGGんんnGGGppp ファイゲンバウムら。は、この問題を含むクラスの問題(セクション5.1を参照)のワンパスアルゴリズムのスペースを示し、接続のスペースの下限はHenzingerらによって証明されたと述べました。。ただし、「接続性」問題の唯一の下限は、実際には「 -接続性」問題です。頂点と与えられた場合、とが同じ接続コンポーネントにあるかどうかを確認します(定理6)。エッジがないことに多くの頂点が存在する可能性があるため、この証明は接続性の問題には使用できません。Ω (n / p )Ω (n )Ω(ん)\Omega(n)Ω (n / p )Ω(ん/p)\Omega(n/p)t s t s tssstttssstttsssttt だから、私の質問は、私が述べた特定のバージョンの接続について、 -passストリームについて既知の下限はあるのでしょうか?ppp
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.