タグ付けされた質問 「clustering」

5
計算可能な数が有理数か整数かをテストすることはできますか?
計算可能な数が有理数か整数かをアルゴリズムでテストすることはできますか?言い換えれば、それは道具計算数字は機能を提供するために、そのライブラリは可能でしょうisIntegerかisRational? 私はそれが不可能であると推測し、これは何らかの形で2つの数値が等しいかどうかをテストすることができないという事実に関連していると推測していますが、それを証明する方法はわかりません。 編集:計算数はxxxの関数で与えられるfx(ϵ)fx(ϵ)f_x(\epsilon)の合理的な近似値を返すことができxxx高精度でϵϵ\epsilon:|x−fx(ϵ)|≤ϵ|x−fx(ϵ)|≤ϵ|x - f_x(\epsilon)| \leq \epsilonいずれについても、ϵ>0ϵ>0\epsilon > 0。このような関数を考えると、それがあれば、テストすることが可能であるx∈Qx∈Qx \in \mathrm{Q}またはx∈Zx∈Zx \in \mathrm{Z}?
18 computability  computing-over-reals  lambda-calculus  graph-theory  co.combinatorics  cc.complexity-theory  reference-request  graph-theory  proofs  np-complete  cc.complexity-theory  machine-learning  boolean-functions  combinatory-logic  boolean-formulas  reference-request  approximation-algorithms  optimization  cc.complexity-theory  co.combinatorics  permutations  cc.complexity-theory  cc.complexity-theory  ai.artificial-intel  p-vs-np  relativization  co.combinatorics  permutations  ds.algorithms  algebra  automata-theory  dfa  lo.logic  temporal-logic  linear-temporal-logic  circuit-complexity  lower-bounds  permanent  arithmetic-circuits  determinant  dc.parallel-comp  asymptotics  ds.algorithms  graph-theory  planar-graphs  physics  max-flow  max-flow-min-cut  fl.formal-languages  automata-theory  finite-model-theory  dfa  language-design  soft-question  machine-learning  linear-algebra  db.databases  arithmetic-circuits  ds.algorithms  machine-learning  ds.data-structures  tree  soft-question  security  project-topic  approximation-algorithms  linear-programming  primal-dual  reference-request  graph-theory  graph-algorithms  cr.crypto-security  quantum-computing  gr.group-theory  graph-theory  time-complexity  lower-bounds  matrices  sorting  asymptotics  approximation-algorithms  linear-algebra  matrices  max-cut  graph-theory  graph-algorithms  time-complexity  circuit-complexity  regular-language  graph-algorithms  approximation-algorithms  set-cover  clique  graph-theory  graph-algorithms  approximation-algorithms  clustering  partition-problem  time-complexity  turing-machines  term-rewriting-systems  cc.complexity-theory  time-complexity  nondeterminism 

2
低次元でのユークリッド平方の最大カット
ましょうx1,…,xnx1,…,xnx_1, \ldots, x_n、平面内の点であるR2R2\mathbb{R}^2。点を頂点として、エッジの重みが完全なグラフを考えます。常に総重量の少なくとも\ frac 2 3の重量カットを見つけることができますか?そうでない場合、\ frac 2 3を置き換える定数はどれですか?∥xi−xj∥2‖xi−xj‖2\|x_i - x_j\|^22323\frac 2 32323\frac 2 3 私が見つけることができる最悪の例は、正三角形の3点で、\ frac 2 3を達成し2323\frac 2 3ます。ランダムな分割は\ frac 1 2を生成することに注意してください1212\frac 1 2。しかし、低次元では、ランダムよりも優れたクラスタリングができることは直感的に明らかです。 k> 2のmax-k-cutではどうなりますか?次元d> 2はどうですか?そのような質問に答える枠組みはありますか?Cheegerの不等式については知っていますが、それらはスパースカット(最大カットではない)に適用され、通常のグラフでのみ機能します。 (質問は、分散を最小限に抑えるためにコンピューターグラフィックスで光源をクラスタリングする問題に触発されています)。

5
無次元データのクラスタリングアルゴリズム
私は数千点のデータセットと任意の2点間の距離を測定する手段を持っていますが、データ点には次元がありません。このデータセット内のクラスター中心を見つけるアルゴリズムが必要です。データにはディメンションがないため、クラスターセンターは複数のデータポイントと許容値で構成され、クラスター内のメンバーシップはクラスターセンター内のすべてのデータポイントまでのデータポイントの距離の平均によって決定される可能性があると思います。 この質問によく知られている解決策がある場合はご容赦ください。この種の問題についてはほとんど知りません!私の(非常に限られた)研究では、次元データのクラスタリングアルゴリズムのみが判明しましたが、明らかな何かを見逃した場合は事前に謝罪します。 ありがとうございました!

2
分離可能なデータのK平均以外の形式化のクラスタリング
実世界のデータには、自然数のクラスターがある場合があります(一部のマジックkより少ない数のクラスターにクラスター化しようとすると、クラスター化コストが劇的に増加します)。今日、私はアダム・マイヤーソン博士による講義に出席し、彼はそのタイプのデータを「分離可能なデータ」と呼びました。 データの自然な分離性を活用するクラスタリングアルゴリズム(近似またはヒューリスティック)に適している、K-means以外のクラスタリングの形式化とは何ですか?

1
準二次時間で類似のベクトルを見つける
ましょう、我々はと呼ぶ関数である類似度関数。類似性関数の例は、コサイン距離、ノルム、ハミング距離、ジャカード類似性などです。d:{0,1}k×{0,1}k→Rd:{0,1}k×{0,1}k→Rd:\{0,1\}^k\times \{0,1\}^k \to \mathbb{R}l2l2l_2 長さバイナリベクトルを考えます:。nnnkkkv⃗ ∈({0,1}k)nv→∈({0,1}k)n\vec{v} \in (\{0,1\}^k)^n 私たちの目標は、類似するベクトルをグループ化することです。より正式には、ノードがベクトルで、エッジが類似するベクトルを表す類似性グラフを計算します()。d(v,u)≤ϵd(v,u)≤ϵd(v,u) \leq \epsilon nnnとは非常に大きな数値であり、2つの長さベクトルを比較するとコストがかかるため、総当たりの操作をすべて実行することはできません。大幅に少ない操作で類似性グラフを計算したいと考えています。kkkkkkO(n2)O(n2)O(n^2) これは可能ですか?そうでない場合、類似性グラフのすべてのエッジに加えて、多くても他のエッジを含むグラフの近似を計算できますか?O(1)O(1)O(1)

1
ポイントのセットを2つの最適なサブセットに二等分する
クラスタ内の平方和が最小になるように、ポイントのセットを2つの等しいサイズのサブセットに分割したいと思います。ポイントは2次元のユークリッド空間にあると想定できます。k = d = 2の場合、一般的なk平均クラスタリングアルゴリズムよりも高速なものを期待しています。誰かがこのための良いアルゴリズムの方向に私を向けることができますか? 適切な近似があれば、正確な解は必要ありません。 ありがとう!

4
継続的なクラスタリング
したがって、ライブで継続的にストリーミングするデータを使用したクラスタリングに関して、私が直面している問題があります。私は増え続けるデータセットを持っているので、効率的で効果的なクラスタリングを実行するための最良の方法は何なのかわかりません。私はいくつかの可能な解決策を考え出しました: 許可するデータポイントの数に制限を設定すると、別のデータポイントが最も古いポイントに到達するときに制限に達するたびに削除されます。本質的に、これは、古いデータは、私たちがそれを捨てることによって失うものを気にするほど私たちにとって十分に関連性がないことを示唆します。 適切なクラスタリングを行うのに十分なデータが揃ったら、すべてのデータを再クラスタリングするのではなく、この「セットアップ」を検討し、新しいポイントが発生したら、新しいポイントが最も近いクラスタ中心を見つけてそれに追加します。ここでの利点は、すべての新しいポイントで再クラスター化する必要がなくなり、他のすべてのポイントを格納する必要がなく、クラスター化を「十分」に考慮してクラスターセンターのみを格納する必要があることです。欠点は、最初からすべてのデータポイントを使用してアルゴリズムを再実行すると、より正確になる可能性があることです。 これらは私がブレインストーミングしたいくつかの潜在的な解決策ですが、この問題に直面するためのよりよく知られた手法があるかどうか知りたいです。私はGoogleのようなサイトが何らかの形でそれに対処しなければならなかったと思います(そして、「RAM、サーバー、プロセッサーをさらに追加する」または「データセンターを継続的に拡張する」が利用可能な唯一の答えではないことを願っています)。

2
クラスタリングアルゴリズムの計算の複雑さ
私の希望は、いくつかのクラスタリングアプローチの時間の複雑さについて説明することです。たとえば、次元空間にデータポイントがます。nnnmmm さらに、次元のペアワイズ非類似度マトリックスが既に計算されており、ステップをすでに費やしていると仮定します。その時の時間の複雑さは何ですかΔΔ\Deltan×nn×nn\times nO(m⋅n2)O(m⋅n2)O(m\cdot n^2) ウォードのリンケージを使用した階層的クラスタリング(HC) 完全リンケージを使用するHC 平均リンケージを使用するHC 単一リンケージを使用するHC kkk -medoidアプローチ 平均法kkk 非類似度行列がまだ計算されていない場合、何か利点はありますか?私はそれがHCのために必要であることを理解してたようkは -medoidアプローチではなく、ために --meansを?ΔΔ\Deltakkkkkk ご協力ありがとうございました!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.