17

幅ビットリストを提供します。あなたの目標は、共通の1がない2つのビットベクトルをリストから返すか、そのようなペアが存在しないことを報告することです。 $n$ $k$

例えば、私があなたに与える場合次いで、唯一の解決策は。代替的に、入力解を持ちません。そして、すべてゼロのビットベクトルと別の要素を含むリストには、自明な解ます。 $[00110, 01100, 11000]$ $\{00110, 11000\}$ $[111, 011, 110, 101]$ $000...0$ $e$ $\{e, 000...0\}$

少し難しい例がありますが、解決策はありません（各行はビットベクトルで、黒い四角は1で、白い四角は0です）：

■ ■ ■ ■ □ □ □ □ □ □ □ □ □
■ □ □ □ ■ ■ ■ □ □ □ □ □ □ 
■ □ □ □ □ □ □ ■ ■ ■ □ □ □
■ □ □ □ □ □ □ □ □ □ ■ ■ ■
□ ■ □ □ □ ■ □ □ □ ■ ■ □ □
□ ■ □ □ ■ □ □ □ ■ □ □ □ ■
□ ■ □ □ □ □ ■ ■ □ □ □ ■ □ <-- All row pairs share a black square
□ □ ■ □ □ □ ■ □ ■ □ ■ □ □
□ □ ■ □ □ ■ □ ■ □ □ □ □ ■
□ □ ■ □ ■ □ □ □ □ ■ □ ■ □
□ □ □ ■ ■ □ □ ■ □ □ ■ □ □
□ □ □ ■ □ □ ■ □ □ ■ □ □ ■
□ □ □ ■ □ ■ □ □ ■ □ □ ■ □

重複しない2つのビットベクトルをどれだけ効率的に検出できるか、または存在しないことが示されますか？

すべての可能なペアを比較する単純なアルゴリズムはです。もっと良くすることは可能ですか？ $O(n^2 k)$

algorithms search-algorithms

— クレイグ・ギドニー
ソース

可能な削減：2つの対応するベクトルに共通の1がある場合、各ベクトルに1つの頂点と2つの頂点間のエッジを持つグラフ

があります。グラフの直径が

かどうかを知りたい。しかし、

より速く進むのは難しいようです。

G

$G$

\geq 2

$\geq 2$

O (n^{2} k)

$O(n^2k)$

— フランソワ

@FrançoisGodi3つのノードと欠落しているエッジを持つ接続されたグラフコンポーネントには、少なくとも2つの直径があります。隣接リスト表現では、それをチェックするのに

時間かかります。

O (V)

$O(V)$

— クレイグギドニー

@Strilanc確かに、解決策がない場合、グラフは完全になります（diameter = 1よりも明確で、正しいです）が、隣接リスト表現の計算は長くなる可能性があります。

— フランソワ

はマシンのワード幅よりも小さいですか？

k

$k$

— ラファエル

1

@TomvanderZandenこれは、データ構造がおそらく依存している不変式に違反するように思えます。特に、その平等は推移的でなければなりません。私はすでにトライを使用することについての考え方をしてきたと私は、クエリのビットマスクが0持つ因子の-2ブローアップを毎回回避する方法が表示されない

— クレイグGidney

10

ウォームアップ：ランダムビットベクトル

ウォームアップとして、各ビットベクトルが一様にランダムに選択される場合から始めることができます。その後、問題は時間で解決できることがた（より正確には、は置き換えることができます）。 $O(n^{1.6} \min(k, \lg n))$ $1.6$ $\lg 3$

問題の次の2セットのバリアントを検討します。

所与のセット非重複ペアが存在する場合にビットベクトルのは、決定。 $S,T \subseteq \{0,1\}^k$ $s \in S, t \in T$

これを解決する基本的なテクニックは、分割統治です。以下は、分割統治を使用した時間アルゴリズムです。 $O(n^{1.6} k)$

最初のビット位置に基づいてとを分割します。換言すれば、フォームは、、、、 $S$ $T$ $S_0 = \{s \in S : s_0=0\}$ $S_1 = \{s \in S : s_0 = 1\}$ $T_0 = \{t \in T : t_0 = 0\}$ 。 $T_1 = \{t \in T : t_0 = 1\}$
ここで、、、およびから重複しないペアを再帰的に探します。再帰呼び出しで重複しないペアが見つかった場合はそれを出力し、そうでない場合は「重複するペアは存在しません」と出力します。 $S_0,T_0$ $S_0,T_1$ $T_1,S_0$

すべてのビットベクトルがランダムに選択されるため、および。したがって、再帰呼び出しが3つあり、問題のサイズを2分の1に削減しました（両方のセットのサイズが2分の1に削減されます）。後分割、二組の一方は、サイズ1までであり、問題が線形時間で解くことができます。の線に沿って再帰関係を取得します $|S_b| \approx |S|/2$ $|T_b| \approx |T|/2$ $\lg \min(|S|,|T|)$ 、その解はです。2セットの場合の実行時間をより正確に考慮すると、実行時間は $T(n) = 3T(n/2) + O(nk)$ $T(n) = O(n^{1.6} k)$ 。 $O(\min(|S|,|T|)^{0.6} \max(|S|,|T|) k)$

これはさらに場合に注目することによって、改善することができる、次いで非重複ペアが存在する確率が指数関数的に小さいです。特に、場合 2つのランダムベクトルであり、それらはしているが、重なり合わない確率である。もし、そのようなペアが個あるため、ユニオン境界により、重複しないペアが存在する確率は最大 $k \ge 2.5\lg n+100$ $x,y$ $(3/4)^k$ $|S|=|T|=n$ $n^2$ 。場合、これは。したがって、前処理工程として、場合、我々はすぐにそうでなければ、我々は、上記のアルゴリズムを実行し、（これが不正確である確率は無視できるほど小さい）「いいえ非重複対は存在しません」を返すことができます。 $n^2 (3/4)^k$ $k \ge 2.5 \lg n+100$ $\le 1/2^{100}$ $k \ge 2.5 \lg n + 100$

したがって、（または上記で提案した2セットのバリアントの場合）、ビットベクトルがランダムに一様に選択される特別な場合 $O(n^{1.6} \min(k, \lg n))$ $O(\min(|S|,|T|)^{0.6} \max(|S|,|T|) \min(k, \lg n))$

もちろん、これは最悪のケースの分析ではありません。ランダムビットベクトルは最悪の場合よりもかなり簡単ですが、一般的な場合に適用できるアイデアを得るために、ウォームアップとして扱いましょう。

ウォームアップからの教訓

上記のウォームアップからいくつかの教訓を学ぶことができます。まず、分割統治（ビット位置で分割）が役立つようです。第二に、できるだけ多くのがその位置にあるビット位置で分割したい。が多ければ多いほど、サブ問題のサイズの減少は少なくなります。 $1$ $0$

第三に、これはの密度が小さくなるにつれて問題が難しくなることを示唆しています- ビットベクトルにがほとんどない場合（ほとんどがである場合）、各分割が減少するため、問題は非常に困難に見えます副問題のサイズが少し。だから、密度定義されたビットの割合であることが（すなわち、全てのうちビット）とビット位置の密度は、あるビットベクトルの分数であることが位置。 $1$ $1$ $0$ $\Delta$ $1$ $nk$ $i$ $1$ $i$

非常に低い密度の取り扱い

次のステップとして、密度が非常に小さい場合はどうなるか疑問に思うかもしれません。すべてのビット位置の密度がより小さい場合、 $1/\sqrt{k}$

$x,y$ $i$ $x_i=y_i=1$ $i$ $(n \Delta(i))^2 < n^2/k$ $k$ $< n^2$

$n$

一般的なアルゴリズムに向けて

$i$ $1$

$i$ $\Delta(i)$
$S$ $T$ $i$ $S_0 = \{s \in S : s_i=0\}$ $S_1 = \{s \in S : s_i = 1\}$ $T_0 = \{t \in T : t_i = 0\}$ $T_1 = \{t \in T : t_i = 1\}$
ここで、S 0、T 0、S 0、T 1、およびT 1、S 0から重複しないペアを再帰的に探します。 $S_0,T_0$ $S_0,T_1$ $T_1,S_0$

課題は、最悪の場合のパフォーマンスを分析することです。

$\Delta(i) < 1/\sqrt{k}$ $i$ $O(nk)$

この手順の実行時間はどのくらいですか？よくわかりませんが、ここに役立ついくつかの観察結果があります。再帰の各レベルは、問題のサイズを約削減します $n/\sqrt{k}$ $n$ $n-n/\sqrt{k}$ $\sqrt{k}$ $3^{\sqrt{k}}$

— DW
ソース

(S_{1}, T_{1})

$(S_1, T_1)$

c k

$ck$

c

$c$

i

$i$

0

$0$

i

$i$

T (n) = T (n / 2) + O (n k)

$T(n) = T(n/2) + O(nk)$

O (n k)

$O(nk)$

k

$k$

n / \sqrt{k}

$n/\sqrt{k}$

O (n k)

$O(nk)$

ああ、それは間違っています、もちろん、それは0-1-mismatchesを考慮しないからです。それは、朝食前に考えようとすると得られるものだと思います。

— ラファエル

T (n) = T ((n - n / \sqrt{k}) k) + O (n k)

$T(n) = T((n-n/\sqrt{k})k)+O(nk)$

8

$n \approx k$

$n = k$ $O(n^2k) = O(n^3)$

$n + k = 2n$

$M$ $M$

$O(n^\omega)$ $\omega$ $2.373$ $2$

したがって、アルゴリズムは次のとおりです。

$n+k$ $nk$ $O(nk)$
$O((n+k)^2)$
$O((n+k)^\omega)$
$O(n^2)$

$n=k$ $O((n+k)^\omega) = O(n^\omega)$ $O(n^3)$

$k$ $n$ $k \in \Omega(n^{\omega-2})$ $k \in O(n^\frac{2}{\omega-1})$ $(n+k)^\omega$ $n^2 k$ $w \approx 2.373$ $n^{0.731} \leq k \leq n^{1.373}$ $w$ $n^\epsilon \leq k \leq n^{2-\epsilon}$

— クレイグ・ギドニー
ソース

k = Ω (n)

$k=\Omega(n)$

k = o (n^{1.457})

$k=o(n^{1.457})$

k \geq n

$k \ge n$

n

$n$

n

$n$

n

$n$ ビット位置。これにより、単純なアルゴリズムよりも高速化されます。ただし、このようなペアの数の上限はわかりません。

— DW

4

これは、別のベクトルの補数のサブセットであるビットベクトルを見つけることと同じです。つまり、その1は、他の0が発生した場合にのみ発生します。

$O(n2^k)$

1または0の数がkよりもさらに小さい数に制限されている場合、指数はそれに置き換えられます。サブセットインデックスは、プロービングが逆を使用する限り、各ベクトルまたはその補数のいずれかで実行できます。

$o(k)$ $o(2^k)$

— クウィレ
ソース

\sim n 2^{(1 - p) k}

$\sim n 2^{(1-p)k}$

p

$p$

2

$n\times k$ $M$ $i$ $j$ $n$

\begin{aligned} (M M^{T})_{i j} = \sum_{l} M_{i l} M_{j l} \end{aligned} .

$\begin{align} (MM^T)_{ij} = \sum_l M_{il}M_{jl} \end{align}.$

$(MM^T)_{ij}$ $i$ $j$ $i$ $j$ $MM^T$

複雑

$O(n^2k)$ $n=k$ $O(n^{2.37})$ $O(n^{2.8})$ $k=O(n^{0.302})$ $n^{2 + o(1)}$

— ベン
ソース

これはStrilancの答えとどう違うのですか？