入力を広げる機能


14

次の特性を持つnビット数からnビット数までの関数があるかどうかを知りたいf

  • fは全単射で必要があります
  • 両方の及び計算可能かなり高速であるべきですff1
  • fは、入力と有意な相関関係のない数値を返す必要があります。

その理由は次のとおりです。

データを操作するプログラムを書きたい。データの一部の情報は、検索キーがアルファベットの記号であるバイナリ検索ツリーに保存されます。時間とともに、アルファベットにさらに記号を追加します。新しいシンボルは、利用可能な次の無料番号を取得するだけです。したがって、ツリーは常に小さなキーに対して小さなバイアスを持ち、必要以上にリバランスが発生します。

私のアイデアは、シンボル番号を範囲全体に広く広がるようにマングルすることです。シンボル番号は、一度だけ発生する入出力中にのみ重要であるため、このような関数を適用することはそれほど高価ではありません。f[0,2641]

Xorshift乱数ジェネレーターの1つの反復について考えましたが、理論的には可能であるはずですが、元に戻す方法は実際にはわかりません。

誰もがそのような機能を知っていますか?
これはいいアイデアですか?


1
(例えば参照私は専門家ではないんだけど、おそらくあなたは、擬似ランダム置換を使用することができたFeistel暗号を
はVor

本質的にハッシュ関数を計算している場合、ハッシュを使用しないのはなぜですか?
フォンブランド

@vonbrand Hashingは元に戻せません。要件番号2を参照してください
。– FUZxxl

なぜ可逆的でなければならないのですか?ルックアップによって元に戻すことの何が問題になっていますか?
フォンブランド

1
(f(x)、x)をキーとして保存できます。
-adrianN

回答:


6

フィボナッチハッシュを使用することができます、すなわち

hFk=k512k512

以下のためあなたが得るのnペアワイズ、明確な数字は(約)に均等に広がって、[ 0 1 ][ 1 .. M ]にスケーリングし、切り捨て(切り捨て)を行うと、その間隔で数値が均等に広がります。k=1nn[01][1 ..M]

たとえば、これらは [ 0..10000 ]にスケーリングされた h F1 h F200 です(左の元のシーケンス、右にソート):hF1hF200[0..10000]

ここに画像の説明を入力してください

これは、Knuthが乗法ハッシュと呼ぶもののインスタンスです。以下のための、コンピュータのワードサイズ、Aにはいくつかの整数互いに素ワットM必要なアドレスの数、我々が使用しますwAwM

hk=MkAwモッド1

ハッシュ関数として。上記はA / w = ϕ 1 = √で続きます(十分な精度で計算できることを確認してください)。これはϕ1以外の他の無理数でも機能しますが、「最も均一に分布した」数につながるのは2つの数のうちの1つです。A/w=ϕ1=512ϕ1

詳細については、Donald KnuthによるThe Art of Computer Programming Volume 3を参照してください(第2版の513ページの6.4章)。結果の数字は(ペアごとに区別される理由は特に、あなたは見つけることができます少なくとも、もしnM)とどのように自然な使用している場合は逆関数を計算するためにワットの代わりに、φ - 1Awϕ1


1
f 1の計算方法f1効率的?
frafl

1
@frafl私の編集があなたの懸念にいくらか対処することを願っています。ただし、これらのハッシュ手法が効率的に可逆になるように特に設計されていないことは明らかです。
ラファエル

はい、私は賛成しますが、受け入れられた答えとしてはお勧めしません。
frafl

1

以下のためビット入力、この機能は動作します:k

hashn=nモッド2k22k2+ndv2k2

これは可逆であり、であり、非順次ペア{ n m } n < mを持ち、ここでh a s hm < h a s hn 。特に入力が{ 1 にある場合、出力と入力が相関する可能性があることに注意してくださいhash(hash(n))=n{n,m},n<mhash(m)<hash(n){1,,2k21}

参照:可逆ハッシュ関数


これはシンプルで素敵に見えます。私はそれをテストするつもりです。
-FUZxxl

1
1.入力によっては、強い相関が生じる場合があります(スピアマンのρの場合は最大)2.これは64ビットではなく32ビットです3.言語に依存しない方法でこれを書いていただけますか?1ρ
frafl

かなり明確です!64ビット(0x00000000FFFFFFFF)の場合、32ビットをシフト(<<)する必要があります。この機能はシンプルで実用的で、実際には十分高速です。
レザ

1
しかし、なぜあなたは、それがすべてのマッピングされていないビットの順列を使用していない2 32のx?前述のように、これは明らかにOPが要求する相関条件に違反しています。バツ{12321}232バツ
frafl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.