順不同リストを与えられた未知の値

19

誰でも次の問題で私を助けることができますか？

私はいくつかの値を検索したい $a_i,b_j$ （MOD $N$ ） $i=1,2,…,K, j=1,2,…,K$ （例えば $K=6$ のリスト与え、） $K^2$ という値具体的な対応関係を知らずに、差 $a_i-b_j\pmod N$ （たとえば $N=251$ ）に対応します。値以来 $a_i,b_j\pmod N$ 一意に違い与え定義されていない $a_i-b_j\pmod N$ 、我々は探して任意の 値の有効割り当て。

間違いなく、リスト内の $K^2$ 数の各順列を試して（合計 $K^2!$ 場合）、変数として $a_i,b_j$ を使用してモジュラー方程式を解くことは実行不可能です。

実際、この問題はNTRU署名スキームの初期バージョンへの暗号解読に関する論文（http://eprint.iacr.org/2001/005）で発生します。しかし、著者は「単純なバックトラックアルゴリズムが1つのソリューションを見つける」という文（3.3節）を1つだけ書いたので、だれかがさらに説明できますか？さらに、著者は「すべての循環シフト $\{((a_i+M)\mod N,(b_i+M)\mod N\}_{i=1}^K$ またはスワップ $(\{(N-1-b_i,N-1-a_i)\}_{i=1}^K)$ はと同じパターンに $a_i-b_j\mod N$ なります。このステートメントは役に立ちますか？

— お客さん
ソース

7

を回復することは不可能であることに注意して

a_{i}, b_{j}

$a_i,b_j$ ください。すべての数値に定数

C

$C$ を追加すると、差は変わらないためです。

— ユヴァルフィルマス

1

@Yuval：これはすでに説明の最後の文に含まれています。いくつかのソリューションが存在する可能性があるため、必要なソリューションは1つだけだと思います。

— domotorp

2

@Yuval

a_{i}, b_{j}

$a_i,b_j$ もモジュラー

必要があることを指摘していないため申し訳ありません

N

$N$ 。したがって、無限の解決策はありません。

— ゲスト

@domotorpはい、いずれかの解決策を見つけても大丈夫です。

— ゲスト

1

おそらく、OPは

a_{i}

$a_i$ 、

b_{j}

$b_j$ がポストの前の

法としてとられることを明確にすることができ

N

$N$ ます：おそらくタイトルまたは最初の段落で。定数

の問題

C

$C$ も言及する価値があります。私が読み始めたとき、両方のことが私を混乱させました。

— フアンベルメホベガ

4

および提案を次に示します。リストが与えられます。一般性を失うことなく、それらの1つを取得することから始めます。一般性を失うことなく、そしての値を取得します。今では、フォームであることを別のものを取る、と希望（これは確率で起こる、およびを推論）。 $K = 6$ $N = 251$ $a_i - b_j \pmod{N}$ $a_1-b_1$ $b_1=0$ $a_1$ $a_2-b_1$ $5/35 = 1/7$ $a_2$

この段階では、わかっています。次の目標は、を探すことです。各候補について、場合、もリストに含まれている必要があります。場合、もリストにあるはおよそです。そのため、もリストにある候補が見つかった場合、おそらくです。このようにして、を確実に回復できます。 $a_1,a_2,b_1$ $a_1-b_j$ $j \neq 1$ $a_i-b_j$ $i=1$ $(a_i-b_j)+(a_2-a_1)=a_2-b_j$ $i \neq 1$ $(a_i-b_j)+(a_2-a_1)$ $33/251$ $a_i-b_j$ $(a_i-b_j)+(a_2-a_1)$ $i=1$ $b_2$

この段階では、わかっています。を回復したのと同じ方法で、合理的な確実性でを回復できます。次に、と両方がリストにある候補を探すことにより、を回復できます。より多く s があるため、障害の確率はかなり低下します。続けてます。 $a_1,a_2,b_1,b_2$ $b_2$ $a_3$ $b_3$ $a_i-b_j$ $(a_i-b_j)+(a_2-a_1)$ $(a_i-b_j)+(a_3-a_1)$ $a$ $b_3,a_4,b_4,a_5,b_6,a_6,b_6$

このアルゴリズムの任意の時点で、何か間違ったことを推測した可能性があり、これにより最終的に矛盾が生じます（ある時点で、良い候補がありません）。その後、バックトラックして別の可能性を試します。すべての可能性を使い果たした場合、バックトラックし、別の可能性を試みます（アルゴリズムの異なる段階で）。等々。 $a_i-b_j$

このアルゴリズムを実際にプログラムするのは良い練習です-バックトラックを正しく実装する方法を理解する唯一の方法でしょう。これは、このアルゴリズムが実際に機能するかどうかを判断する唯一の方法でもあります。

— ユヴァル・フィルマス
ソース

ありがとうございます。このバックトラッキングをコーディングして、理解を深めます。元の論文の著者は、「バックトラック」にも言及しているため、同様の方法を使用した可能性があります。

— ゲスト

あなたの答えに私のコメントを投稿するのを忘れてすみません！また、提案されたメソッドを（C ++で）実装しました。結論は、アルゴリズムが非常にうまく機能し、解決策の1つが非常に高速に（私のPCで1秒未満で）見つかるということです。今回は、バックトラック手順をよりよく理解できます。どうもありがとうございました！

— ゲスト

最後のコメントで「@Yuval」ができないのはなぜですか？！申し訳ありませんが、何度か試しました。

— ゲスト

コードをオンラインで共有して、論文を読んでいる他の人がアクセスできるようにすることもできます。

— ユヴァルフィルマス

5

更新：以下の説明は、異なる問題（2つの異なるセット間のペアワイズ距離ではなく、セット内のすべてのペアワイズ距離がある問題）に関するものです。それは密接に関連しているので、とにかくそれを残します。

この問題はベルトウェイ問題と呼ばれ、一般的なトーラス埋め込み問題の特殊なケースです。また、ターンパイク問題と密接に関連しています。ターンパイク問題では、距離の差は絶対的です（モジュロではなく）。 $d$

環状道路問題がポリタイムアルゴリズムを認めるかどうかは不明です。関連する質問には、さまざまな擬似ポリタイムアルゴリズムがあります。最良のリファレンス（古いものもあります）は、Lemke、Skiena、Smithの論文です。

— スレシュ・ベンカット
ソース

1

この問題は違うと思います。ベルトウェイ問題では、すべてのペアワイズ距離を知っています。ここでは、異なるグループにある2つのポイント間の距離のみを知っています。これは情報量が少ないように見えますが、実際には問題の解決に役立ちます。

— domotorp

ああ、はい。二部グラフです。いい視点ね。

— Suresh Venkat

二部グラフ？何かのようなもの。この方法で問題を試す必要があるかもしれませんが、今は具体的な考えがありません。

— ゲスト

3

ここに、問題を解決するのに十分な足場となると思われる観察結果があります。

私たちは4つの違いがあると、、、 2間のペアワイズの違いとして生じるさんと2さんを。これをカルテットの違いと呼びます。重要な関係があることに注意してください。 $a_1-b_1$ $a_1-b_2$ $a_2-b_1$ $a_2-b_2$ $a$ $b$

(a_{1} - b_{1}) - (a_{1} - b_{2}) = (a_{2} - b_{1}) - (a_{2} - b_{2}) (\mod N) .

$(a_1-b_1)-(a_1-b_2) = (a_2-b_1)-(a_2-b_2) \pmod N.$

この関係を使用して、リストから潜在的なカルテットを特定することができます。たとえば、リストから4つの違いを選択します。上記の関係を満たさない場合は、カルテット構造から生じることはありません。それらが関係を満たす場合、カルテットから生じる可能性があります。 $K^2$

ここからいろいろな方法がありますが、これで十分だと思います。

パラメータ設定の例では、上記のカルテットを認識するテストはおそらくあまり多くの誤検出をしないため、問題は非常に簡単になると私は特に疑っています。リストから4つの違いを選択するすべての方法のうち、四重奏（すべての関係を満たす）があり、残りは非四重奏（満足する）です。確率との関係（発見的）。したがって、誤検出、つまり、4組ではなくてもテストに合格する4タプルが表示されることが予想されます。パラメータについては、これは225四重奏とがあることを意味します ${K^2 \choose 4}$ ${K \choose 2}^2$ $1/N$ $({K^2 \choose 4}-{K \choose 2}^2)/N$ $(58905-225)/251 \approx 234$ その他の誤検知; そのため、テストに合格する4タプルの約半分は実際には4組です。これは、上記のテストがカルテットを認識するための非常に良い方法であることを意味します。カルテットを認識できたら、違いのリストの構造を回復するために実際に町に行くことができます。

— DW
ソース

@DW：ありがとうございますが、可能性のあるすべてのカルテット（合計225 + 234 = 459の1つ）が見つかった後、次のステップを考えています。3つの非重複カルテットを検索し、それらが可能なソリューションを構成できるかどうかをテストする必要がありますかこれを効率的に達成する方法は？重複はあまりないので、それほど難しくないかもしれません。

— ゲスト

@aguest、良い質問です！当時何を考えていたか思い出せません。私は、私は1つのアプローチを考えること（から生じる、例えば2つの違いでそれをオーバーラップする他のすべてを探して、その後、1つのカルテットで開始することができ思い出すと思うどこ）が、私はしないでくださいそこからどこに行くかを知る（誤検知を除外する方法）。

a_{1}, a_{j}, b_{1}, b_{2}

$a_1,a_j,b_1,b_2$

j \neq 2

$j\ne 2$

— DW

3

現れない数字を繰り返し見つけることに基づく、別のアプローチがあります。セットのコールの過剰近似私たちがいることを知っている場合のを。同様に、ことがわかっている場合、はのです。明らかに、が小さいほど、この過剰近似はより有用であり、についても同じことがます。私のアプローチは、これらの過剰近似を繰り返し改良すること、つまり、これらのセットのサイズを反復的に縮小することに基づいています（より多くの値を不可能として除外するため）。 $\{a_1,\dots,a_6\}$ $A$ $a$ $\{a_1,\dots,a_6\} \subseteq A$ $B$ $b$ $\{b_1,\dots,b_6\} \subseteq B$ $A$ $B$

このアプローチの核心はするための方法であって、改良：過近似所与のためのさんとオーバー近似ための s 'は、新たな過近似見つけるためののように。具体的には、通常、より小さくなりますこれは私たちがために過近似絞り込むことができますので、さんを。 $A$ $a$ $B$ $b$ $A^*$ $a$ $A^* \subsetneq A$ $A^*$ $A$ $a$

対称性によって、本質的に同じトリックは、私たちは私たちの過近似絞り込むようになるさんが：過近似与えられたに対してさんとオーバー近似のためのさん、それは新しいオーバーを生成しますの場合、近似。 $b$ $A$ $a$ $B$ $b$ $B^*$ $b$

それでは、どのように改良を行うかを教えてください。その後、すべてをまとめてこの問題の完全なアルゴリズムを取得します。以下では、が複数の差のセットを示すものとします。つまり、です。与えられ、洗練された過剰近似を見つけることに焦点を当てます。 $D$ $D=\{a_i-b_j:1 \le i,j \le 6\}$ $A^*$ $A,B$

洗練を計算する方法。 単一の差考えます。セット考えます。はの過剰近似であるという知識に基づいて、少なくとも1つの要素が要素でなければならないことがます。したがって、各要素を、含まれる可能性のある数値の「提案」として扱うことができます。それでは、すべての差をスイープし、それぞれについて、どの数字がによって「推奨」されるかを特定しましょう。 $d \in D$ $d+B=\{d+y : y \in B\}$ $B$ $b$ $d+B$ $\{a_1,\dots,a_6\}$ $d+B$ $A$ $d \in D$ $d$

ここで、このプロセス中に少なくとも1回、数字が提案されることを確認します。どうして？差はにあり、それを処理するとき、は示唆する数値の1つになります（、は必ずが含まれることが保証されているため）。同様に、差はどこかに現れ、が再び提案されます。このようにして、の正しい値が少なくとも6回提案されることがわかります。同じことが、およびも当てはまります $a_1$ $a_1-b_1$ $D$ $a_1$ $b_1 \in B$ $(a_1-b_1)+B$ $a_1$ $a_1-b_2$ $D$ $a_1$ $a_1$ $a_2$ $a_3$ 、等々。

したがって、を少なくとも6回提案された数値セットとします。上記のコメントによると、これは必ずの過大評価になります。 $A^*$ $a^*$ $a$

最適化として、に存在しないすべての提案をすぐに除外できます。つまり、差をすべての値を提案するものとして扱うことができます。これにより、が確保されます。が厳密によりも小さいことを期待しています。保証はありませんが、すべてがうまくいけば、おそらくうまくいくでしょう。 $A$ $d$ $(d+B)\cap A$ $A^* \subseteq A$ $A^*$ $A$

これをまとめると、を改良してを生成アルゴリズムは次のとおりです。 $A,B$ $A^*$

ましょう。これは複数の提案です。 $S = \cup_{d \in D} (d+B)\cap A$
各値が表示される回数をカウントします。してみましょう中に少なくとも6回表示される値の集合。（これは、アレイ構築することによって効率的に実現することができるゼロ最初全て、最初に251を、その数毎時間提案されているが、あなたが増分、終了時に、あなたはを通じて掃引値が6以上である要素を探し大きい） $S$ $A^*$ $S$ $a$ $s$ $a[s]$ $a$

Aを改良してを取得する同様のメソッドを構築できます。基本的に上記のことを逆にして、いくつかの兆候を反転させます。たとえば、代わりにを見ます。 $A,B$ $B^*$ $d+B$ $-d+A$

初期の過剰近似の計算方法。最初の過剰近似を取得するための1つのアイデアは、と仮定（wlog）することです。その結果、各値はどこかに現れる必要があるため、差のリストはの初期の過剰近似として使用できます。残念ながら、これはの非常に有用な過剰近似を与えません。 $b_1=0$ $a_i$ $D$ $D$ $a$ $b$

より良い方法は、のいずれかの値をさらに推測することです。つまり、（wlog）と仮定し、の初期の過剰近似としてを使用します。次に、これらの36個の値のどれが実際にの1つであるかを推測します（。これにより、の近似られます。この初期過近似を使用してから、収束するまで繰り返し改良し、結果が正しいかどうかをテストします。動作するものが見つかるまで、で36の異なる推定値（平均6つの推定値で十分です）で最大36回繰り返します。 $a$ $b_1=0$ $A=D$ $a$ $a$ $a_1$ $B=a_1-D$ $b$ $A,B$ $a_1$

完全なアルゴリズム。 これでを計算する完全なアルゴリズムを使用できます。基本的に、と初期の過剰近似を導き出し、その後繰り返し改良します。 $a_1,\dots,a_6,b_1,\dots,b_6$ $A$ $B$

推測する：各について、と推測します。以下をせよ： $z \in D$ $a_1=z$
1. 初期の過剰近似：および定義します。 $A=D$ $B=z-D$
2. 反復的な改良：収束するまで以下を繰り返し適用します。
  - を調整して、の新しい近似を取得します。 $A,B$ $B^*$ $b$
  - 絞り込み新しい過近似取得するのさんを。 $A,B^*$ $A^*$ $a$
  - レッツおよび。 $A:= A^*$ $B:= B^*$
3. 成功の確認：結果セットサイズがそれぞれ6である場合、それらが問題の有効な解決策であるかどうかをテストします。もしそうなら、停止します。そうでない場合は、候補値に対するループを続行します。 $A,B$ $z$

分析。 これは機能しますか？最終的におよびにしますか、または問題を完全に解決せずにスタックしますか？見つけるための最良の方法は、おそらくそれをテストすることです。ただし、パラメータについては、はい、効果があると思います。 $A=\{a_1,\dots,a_6\}$ $B=\{b_1,\dots,b_6\}$

メソッド＃1を使用する場合、大きすぎず、発見的に、セットのサイズが単調に縮小すると予想します。からを導出することを検討してください。各差は示唆します値; それらの1つは修正され、もう1つは（発見的）乱数として扱うことができます。場合は間に表示されていない数であるさんは、確率は、それがフィルタリングを生き残り、に追加されていることを何である？さて、についてが提案されることを期待ています。 $|A|,|B|$ $A^*$ $A,B$ $d$ $|B|$ $|B|-1$ $x$ $a$ $A^*$ $a$ $(|B|-1) \times 36/251$ 合計で（平均で、その平方根についての標準偏差で）回。場合、間違ったがフィルタリングに耐える確率は約程度である必要があります（2項式の正規近似と連続性補正を使用）。（が小さい場合、確率は小さくなります。たとえば、場合、を期待します。）サイズは約になると思います。、より厳密に小さいため、過近似を厳密に改善します。たとえば、場合、これらのヒューリスティックに基づいて期待しています $|B|\le 36$ $x$ $p=0.4$ $|B|$ $|B|=30$ $p\approx 0.25$ $A^*$ $p (|A|-6) + 6$ $|A|$ $|A|=|B|=36$ $|A^*|\approx 18$ 、これはよりも大幅に改善されています。 $|A|$

したがって、実行時間が非常に高速になると予測しています。通常、収束には3〜5回の洗練の反復で十分であり、約6回の推測で十分であると予想されます。各改良操作には、おそらく数千のメモリ読み取り/書き込みが含まれ、おそらく20〜30回行います。そのため、指定したパラメーターに対して、これは非常に高速になると予想されます。ただし、確実に確認する唯一の方法は、試してみて、うまく機能するかどうかを確認することです。 $z$

— DW
ソース

@DW：長い回答と、たくさんの単語を入力するために行った努力に感謝します!!! あなたの説明によると、ここでのアルゴリズムはかなり正しいです。そして、今すぐ効率をテストするためにコーディングします。

— ゲスト

@DW：こんにちは、C ++で説明を実装しました。アルゴリズムは高速で実行され、改良ステップは元のセットおよびサイズを縮小します。ただし、収束はそれほど完璧ではないようです。実際、各推測について、プログラムによる私のレコード出力によると、との最終サイズはまだ10を超えています。（および）をさらに洗練を繰り返しても改善できない場合、既存の要素の最も多い数は11ですが、10未満の数はほとんど見られません。から選ばれた6要素

A

$A$

B

$B$

z \in D

$z\in D$

A^{*}

$A^*$

B^{*}

$B^*$

A^{*}

$A^*$

B^{*}

$B^*$

— ゲスト

@DW：（続き）各推測に対する最終および（ただし、PCに最後のステップを実装しませんでした）。合計金額の計算は約になると推定します。どうもありがとうございました！

A^{*}

$A^*$

B^{*}

$B^*$

z

$z$

2^{20}

$2^{20}$

— ゲスト

申し訳ありませんが、最後のコメントが長すぎて、2つに分割する必要があります。

— ゲスト