ランダムにマルチセットの2つの拡散した混乱した順列を生成する効率的なアルゴリズム

バックグラウンド

$\newcommand\ms[1]{\mathsf #1}\def\msD{\ms D}\def\msS{\ms S}\def\mfS{\mathfrak S}\newcommand\mfm[1]{#1}\def\po{\color{#f63}{\mfm{1}}}\def\pc{\color{#6c0}{\mfm{c}}}\def\pt{\color{#08d}{\mfm{2}}}\def\pth{\color{#6c0}{\mfm{3}}}\def\pf{4}\def\pv{\color{#999}5}\def\gr{\color{#ccc}}\let\ss\gr$ $n$ ビー玉の同一のバッチが2つあるとします。各大理石は $c$ 色のいずれかです（ $c≤n$ 。してみましょう $n_i$ 色のビー玉の数表す $i$ 各バッチでを。

ましょう $\msS$ マルチセットである $\small\{\overbrace{\po,…,\po}^{n_1},\;\overbrace{\pt,…,\pt}^{n_2},\;…,\;\overbrace{\vphantom 1\pc,…,\pc}^{n_c}\}$ は1つのバッチを表します。で周波数表現、 $\msS$ また、のように書くことができる $(\po^{n_1} \;\pt^{n_2}\; … \;\pc^{n_c})$ 。

の異なる順列の数は $\msS$ 、多項式によって与えられます：

| S_{S} | = (\binom{n}{n_{1}, n_{2}, \dots, n_{c}}) = \frac{n!}{n_{1}! n_{2}! \dots n_{c}!} = n! \prod_{i = 1}^{c} \frac{1}{n_{i}!} .

$\left|\mfS_{\msS}\right|=\binom{n}{n_1,n_2,\dots,n_c}=\frac{n!}{n_1!\,n_2!\cdots n_c!}=n! \prod_{i=1}^c \frac1{n_i!}.$

質問

ランダムに 2つの拡散した混乱した順列 $P$ およびを生成する効率的なアルゴリズムはありますか？（分布は均一でなければなりません。） $Q$ $\msS$

順列 $P$ ある拡散すべての異なる要素の場合 $i$ の $P$ のインスタンス $i$ で略均等に離間されている $P$ 。
たとえば、と仮定します $\msS=(\po^4\;\pt^4)=\{\po,\po,\po,\po,\pt,\pt,\pt,\pt\}$ 。
- $\{\po, \po, \po, \pt, \pt, \pt, \pt, \po\}$ は拡散していません
- $\{\po, \pt, \po, \pt, \po, \pt, \po, \pt\}$ は拡散
より厳密に：
- 場合、に「スペース」するインスタンスは1つだけなので、ます。 $n_i=1$ $i$ $P$ $\Delta(i)=0$
- それ以外の場合、をのインスタンスとインスタンスの間の距離とします。それからインスタンス間の予想距離を引き、以下を定義します：がで等間隔の場合、はゼロ、または場合はゼロに非常に近くなります。 $d(i,j)$ $j$ $j+1$ $i$ $P$ $i$ $δ （私、 j ） = d （私、 j ） - \frac{n}{n_{私}} △ （私） = \sum_{j = 1}^{n_{私} - 1} δ （私、 j ）^{2}$ $\delta(i,j)=d(i,j)-\frac n{n_i}\qquad\qquad\Delta(i)=\sum_{j=1}^{n_i-1} \delta(i,j)^2$ $i$ $P$ $\Delta(i)$ $n_i\nmid n$
次に、統計を定義して、すべてのが等間隔に配置されている量を測定します。がゼロに近い場合、またはおおよそ場合、 diffuse を呼び出します。（一つが閾値を選択することができに特定ように拡散している場合）。 $s(P)=\sum_{i=1}^c\Delta(i)$ $i$ $P$ $P$ $s(P)$ $s(P)\ll n^2$ $k\ll1$ $\msS$ $P$ $s(P)<kn^2$

この制約は、マルチセット（したがって）および密度の風車問題と呼ばれるより厳密なリアルタイムスケジューリング問題を想起させます。。目的は、長さサブシーケンスが少なくとも1つのインスタンスを含むように、循環無限シーケンスをスケジュールすることです。言い換えれば、実行可能なスケジュールにはすべてのです。場合密である（）、次いで及び。風車の問題はNP完全なようです。 $\ms A=n/\msS$ $a_i=n/n_i$ $\rho=\sum_{i=1}^c n_i/n=1$ $P$ $a_i$ $i$ $d(i,j)≤a_i$ $\ms A$ $\rho= 1$ $d(i,j)=a_i$ $s(P)=0$
二つの順列とされている錯乱場合ある撹乱の ; つまり、すべてのインデックスに対してです。 $P$ $Q$ $P$ $Q$ $P_i ≠ Q_i$ $i\in[n]$
たとえば、と仮定します。 $\msS=(\po^2\;\pt^2)=\{\po,\po,\pt,\pt\}$
- $\{\po, \pt, \po, \pt\}$ およびは乱れません $\{\po, \po, \pt, \pt\}$
- $\{\po, \pt, \po, \pt\}$ およびは乱れています $\{\pt, \po, \pt, \po\}$

探索的分析

私はとのマルチセットの家族に興味とのための。特に、。 $n=20$ $n_i=4$ $i\lesssim4$ $\msD=(\gr1^4\,\gr2^4\,\gr3^4\,\gr4^3\,\gr5^2\,\gr6^1\,\gr7^1\,\gr8^1)$

2つのランダム順列確率とのされている錯乱は約3％です。 $P$ $Q$ $\msD$

これは次のように計算できます。ここで、は番目のラゲール多項式です。説明については、こちらを参照してください。 $L_k$ $k$
$\begin{aligned} | D_{D} | & = \int_{0}^{\infty} d t e^{- t} \prod_{i = 1}^{c} L_{n_{i}} (t) = \int_{0}^{\infty} d t e^{- t} (L_{4} (t))^{3} (L_{3} (t)) (L_{2} (t)) (L_{1} (t))^{3} \\ = 4.5 \times 10^{11} \\ | S_{D} | & = n! \prod_{i = 1}^{c} \frac{1}{n_{i}!} = \frac{20!}{(4!)^{3} (3!) (2!) (1!)^{3}} = 1.5 \times 10^{13} \\ p & = | D_{D} | / | S_{D} | \approx 0.03 \end{aligned}$ $\begin{align*} \left|{\mathfrak D}_{\msD}\right| &=\int_0^\infty \!\!dt\; e^{-t}\, \prod_{i=1}^c L_{n_i}(t) =\int_0^\infty \!\!dt\; e^{-t}\, \bigl(L_4(t)\bigr)^3\bigl(L_3(t)\bigr)\bigl(L_2(t)\bigr)\bigl(L_1(t)\bigr)^3\\ &=4.5\times10^{11}\\ \left|\mfS_{\msD}\right| &=n!\prod_{i=1}^c \frac1{n_i!} =\frac{20!}{(4!)^3\,(3!)\,(2!)\,(1!)^3} =1.5\times10^{13}\\ p&=\left|{\mathfrak D}_{\msD}\right|/ \left|\mfS_{\msD}\right|\approx0.03\end{align*}$
ランダム順列の確率のある拡散は略で任意の閾値設定、0.01％程度である。 $P$ $\msD$ $s(P)<25$

以下は、 100,000サンプルの経験的確率プロットです。ここで、はランダム置換です。 $s(P)$ $P$ $\msD$

培地サンプルサイズで、。 $s(P)\sim \text{Gamma}(\alpha\approx8,\beta\approx18)$

$\begin{array}{ccl} P & s (P) & cdf (s (P)) \\ {1, 8, 2, 3, 4, 1, 5, 2, 3, 6, 1, 4, 2, 3, 7, 1, 5, 2, 4, 3} & \frac{11}{9} \approx 1 & < 10^{- 5} \\ {8, 2, 3, 4, 1, 6, 5, 2, 3, 4, 1, 7, 1, 2, 3, 5, 4, 1, 2, 3} & \frac{140}{9} \approx 16 & < 10^{- 4} \\ {3, 6, 5, 1, 3, 4, 2, 1, 2, 7, 8, 5, 2, 4, 1, 3, 3, 2, 1, 4} & \frac{650}{9} \approx 72 & 0.05 \\ {3, 1, 3, 4, 8, 2, 2, 1, 1, 5, 3, 3, 2, 6, 4, 4, 2, 1, 7, 5} & \frac{1223}{9} \approx 136 & 0.45 \\ {4, 1, 1, 4, 5, 5, 1, 3, 3, 7, 1, 2, 2, 4, 3, 3, 8, 2, 2, 6} & \frac{1697}{9} \approx 189 & 0.80 \end{array}$ $\begin{array}{ccl}\renewcommand\mfm[1]{\textbf{#1}} \hline P & s(P) & \text{cdf}(s(P)) \\ \hline \{\po, \ss8, \pt, \pth, \pf, \po, \pv, \pt, \pth, \ss6, \po, \pf, \pt, \pth, \ss7, \po, \pv, \pt, \pf, \pth\} & \frac{11}9\approx1\, & <10^{-5} \\ \{\ss8, \pt, \pth, \pf, \po, \ss6, \pv, \pt, \pth, \pf, \po, \ss7, \po, \pt, \pth, \pv, \pf, \po, \pt, \pth\} & \frac{140}9\approx16 & <10^{-4} \\ \{\pth, \ss6, \pv, \po, \pth, \pf, \pt, \po, \pt, \ss7, \ss8, \pv, \pt, \pf, \po, \pth, \pth, \pt, \po, \pf\} & \frac{650}9\approx72 & \phantom{<1}0.05 \\ \{\pth, \po, \pth, \pf, \ss8, \pt, \pt, \po, \po, \pv, \pth, \pth, \pt, \ss6, \pf, \pf, \pt, \po, \ss7, \pv\} & \frac{1223}9\approx136 & \phantom{<1}0.45 \\ \{\pf, \po, \po, \pf, \pv, \pv, \po, \pth, \pth, \ss7, \po, \pt, \pt, \pf, \pth, \pth, \ss8, \pt, \pt, \ss6\} & \frac{1697}9\approx189 & \phantom{<1}0.80 \\ \hline \end{array}$

2つのランダムな順列が有効である確率（拡散と両方）は、です。 $v\approx(0.03)(0.0001)^2\approx10^{-10}$

非効率的なアルゴリズム

セットのランダムな混乱を生成する一般的な「高速」アルゴリズムは、拒否ベースです。

do
     P ←random_permutation（D）
is_derangement（D、P）までPを 
返す

ほぼ混乱が生じる可能性があるため、約回の反復が必要です。ただし、拒否ベースのランダム化アルゴリズムは、回の反復の順序を取るため、この問題に対して効率的ではありません。 $e$ $n!/e$ $1/v\approx10^{10}$

Sageが使用するアルゴリズムでは、マルチセットのランダムな混乱は「可能なすべての混乱のリストからランダムに要素を選択することによって形成されます。」しかし、を列挙するには有効な順列であり、その上、とにかくそれを行うにはアルゴリズムが必要です。 $v\,|\mfS_{\msD}|^2\approx10^{16}$

さらなる質問

この問題の複雑さは何ですか？ネットワークフロー、グラフの色付け、線形プログラミングなど、おなじみのパラダイムに縮小できますか？

— hftf
ソース

「スペース」の定義に関しては、 for withは歩asとして？つまり、単一の要素が中央にあり、2つの要素が順列を3分の1に分割する、という具合です。

d (i, j) - n / (n_{i} + 1)

$d(i,j) - n/(n_i + 1)$

0 \leq i \leq j \leq n + 1

$0 \leq i \leq j \leq n+1$

P_{0} = P_{n + 1} = i

$P_0 = P_{n+1} = i$

— ラファエル

が悪の（小さいが十分に大きい）の場合、どうなりますか。私たちも、ない持っているよりも拡散順列を？私たちは確かに2つの混乱したものを見つけるために変化に耐えません！どの要素も回以上は発生しないようです。

S = {1^{n - k}, 2^{k}}

$S = \{ 1^{n-k}, 2^k\}$

k

$k$

n / 2

$n/2$

— ラファエル

拡散順列のすべてのペアのうち、混乱した順列のすべてのペアの比率は何ですか？同様に、混乱した順列のすべてのペアのうち、いくつが2つの拡散順列で構成されていますか？（どちらかの比率が「高い」場合、プロセスの半分に努力を集中し、残りを拒否します。）

— ラファエル

@Raphael（＃3a） 100万のランダムな順列のうち、これら561個の拡散したものには。のペアがます。

D

$\mathsf D$

s (P) \leq 30

$s(P)\le 30$

6118 / (\binom{561}{2}) = 6118 / 157080 \approx 3.9 %

$6118/\binom{561}{2}=6118/157080\approx3.9\%$

— hftf

@Raphael（＃3b）順列のランダムなペア1,000万個のうち、306893個のペアが乱れました。これらのペアのうち29のみが両方の順列を。これがヒストグラム（値）です。

D

$\mathsf D$

s (P) \leq 50

$s(P)\le50$

— hftf

回答:

一つのアプローチ：あなたは次のような問題にこれを削減することができます：ブール式が与えられ、割り当てを選択するには、、すべての条件を満たす割り当ての中からランダムに一様。この問題はNP困難ですが、ほぼ均一に分布するを生成するための標準アルゴリズムがあり、＃SATアルゴリズムからメソッドを借用しています。たとえば、1つの手法は、範囲が慎重に選択されたサイズ（満足できる割り当ての数とほぼ同じサイズ）を持つハッシュ関数を選択し、の範囲内からランダムに値一様に選択することです $\varphi(x)$ $x$ $\varphi(x)$ $x$ $h$ $\varphi$ $y$ $h$ 、そしてSATソルバーを使用して、式への満足のいく割り当てを見つけます。効率的にするために、を疎な線形マップとして選択できます。 $\varphi(x) \land (h(x)=y)$ $h$

これは大砲でノミを撃つかもしれませんが、実行可能な他のアプローチがない場合は、これを試すことができます。

— DW
ソース

これを見つけるのは難しい。はブール値であり、はバイナリ文字列（バイナリ変数のセット）ですか？最終的な方程式は...？

φ (x)

$\varphi(x)$

h (x)

$h(x)$

— vzn

この問題の拡張された議論/分析は、問題の複雑な要件の主観性を明らかにしましたが、完全なエラーや見落としを発見しなかったさらなる背景を持つcsチャットで始まりました。¹

ここにいくつかのテスト/分析されたコードがあります。SATに基づく他のソリューションと比較すると、比較的「迅速かつ汚い」ですが、デバッグするのは簡単ではありません。その緩く概念的例えばと少し似て地元の擬似ランダム/貪欲最適化方式に基づいて、2-OPTをするためにTSP。基本的な考え方は、何らかの制約に適合するランダムなソリューションから始めて、それを局所的に摂動させて改善を探し、欲張りに改善を探してそれを反復し、すべての局所改善が使い果たされたら終了することです。設計基準は、アルゴリズムが可能な限り効率的である/拒否を回避することであるということでした。

たとえばSAGE [5]で使用されている混乱アルゴリズム[4]にはいくつかの研究がありますが、それらはマルチセットを中心としたものではありません。

単純な摂動は、タプル内の2つの位置の「スワップ」のみです。実装はルビーです。以下は、行番号を参照した概要/メモです。

qb2.rb（gist -github）

ここでのアプローチは、2つの乱れたタプル（＃106）から始めて、局所的/貪欲に分散を改善し（＃107）、derangesperse混乱を保持する（＃97）と呼ばれる概念に結合します。タプルペアの2つの同じ位置を交換すると、混乱を保持し、分散を改善できることに注意してください。これは分散メソッド/戦略の一部です。

derangeサブルーチンは、後にスワップが同じ要素（＃10）ではない配列の要素を持つ配列（マルチセット）とスワップに左から右に働きます。最後の位置にさらにスワップがなくても、2つのタプルの配列がまだ乱れている場合（＃16）、アルゴリズムは成功します。

初期タプルを整理するための3つの異なるアプローチがあります。2番目のタプルp2は常にシャッフルされます。タプル1（p1）から開始できます。a.「最高次数1次」（＃128）、b.シャッフル次数（＃127）、c.および「最低次数1次」（「最大次数最後」）（＃126）で順序付けられます。

分散ルーチンdisperseはより複雑ですが、概念的にはそれほど難しくありません。再びスワップを使用します。一般的にすべての要素の分散を最適化しようとするのではなく、現在の最悪のケースを繰り返し軽減しようとします。アイデアは、左から右へ、^最初の最小分散要素を見つけることです。摂動はx, y、最小分散ペアの左または右の要素（インデックス）を他の要素と交換しますが、ペア間では決して交換せず（常に分散を低下させます）、同じ要素と交換しようとすることをスキップします（select＃71で）。mペアの中点インデックスです（＃65）。

ただし、分散は、各ペア（＃25、＃44）の「最小/左端」分散を使用して、ペア（＃40）の両方のタプルで測定/最適化されます。

スワップ「遠い」の要素1にアルゴリズム試行^ST（sort_by / reverse＃71）。

true, false最小分散ペアの左または右の要素（＃80）を交換するかどうかを決定するための2つの異なる戦略があります。左要素を右要素に、左要素を右要素に、または左端要素を右端に配置します。スワップ要素からの分散ペアで。

分散を改善できなくなった場合（＃91）、アルゴリズムは終了します（最悪の分散ロケーションを右に移動するか、タプルペア全体で最大分散を増やします（＃85））。

統計はc、3つのアプローチ（＃116）とc= 1000のデレンジスパーゼ（＃97）での= 1000の混乱を超える拒否の出力であり、拒否（＃19、＃106）からの混乱したペアの2つの分散アルゴリズムを調べます。後者は、（平均的な分散を保証した後）合計平均分散を追跡します。実行例は次のとおりです

c       0.661000
b       0.824000
a       0.927000
[2.484, 2, 4]
[2.668, 2, 4]

これは、a-trueアルゴリズムが〜92％の非拒否と〜2.6の平均最悪分散距離で最高の結果を提供し、1000回の試行で保証された最小2、つまり、すべての同じ要素ペア間に少なくとも1つの等しくない介在要素が得られることを示しています。3つの等しくない介在要素という高いソリューションが見つかりました。

混乱アルゴリズムは線形時間事前拒否であり、分散アルゴリズム（混乱した入力で実行）はおそらくです。 $O(n \log n)$

¹問題は、いわゆる「feng shui」[1]または「nice」がやや主観的で、まだ「公式に」定量化されていない「nice」ランダム順序を満たすクイズボウルパケット配置を見つけることです。この問題の著者は、クイズボウルコミュニティと「風水の専門家」による研究に基づいて、分析し、それを混乱/分散基準に減らしました。[2] 「風水ルール」にはさまざまなアイデアがあります。一部の「公開された」研究はアルゴリズムについて行われていますが、初期段階にあります。[3]

[1] パケット風水 / QBWiki

[2] クイズボウルパケットと風水 / Lifshitz

[3] 質問の配置、HSQuizbowlリソースセンターフォーラム

[4] ランダムな混乱の生成 /マルチネス、パンホルツァー、プロディンガー

[5] セージ混乱アルゴリズム（python）/ McAndrew

— vzn
ソース

さらに考えてみて、狂気のルーチンに不具合があり、それが常に狂わない。スワップ位置は、何もスワップせずに進む場合があります。成功を正しくテストするための簡単な修正があります。

— vzn