アイテムを見つけるための比較ベースのデータ構造

アイテムの順序付けられていない配列を取り、前処理を実行し、クエリに回答するデータ構造があります：リストに要素があり、各クエリは最悪の時間ですか？ $n$ $O(n)$ $x$ $O(\log n)$

私は本当に存在しないと思うので、存在しないという証拠も歓迎します。

ds.data-structures sorting

— チーラン
ソース

（1）質問に「期待される」とはまったく述べていないので、「もちろん、予想される時間を考慮する」と言うことができる理由がわかりません。言う前に、より正確にあなたの質問を述べるしてみてください（2）「非ハッシュ可能」を定義してください「もちろん。」

— 剛伊藤

（1）なるほど。説明してくれてありがとう。誰かが「実行時間を気にしますか？」「ハッシュ不可」と言うだけではありません。「ハッシュ不可」の意味を理解するために人々がコメントを読む必要がないように質問を編集できますか？

— 伊藤剛

ところで、もしあなたがそれを証明できないなら、なぜあなたはそれが不可能であることを知っていますか？教科書やクラスでの練習の場合、間違ったウェブサイトを尋ねています。

— 伊藤剛

これはあなたの質問ですか？n個のアイテムの順序付けられていない配列を取り、O（n）で前処理を実行し、クエリに答えるデータ構造はありますか？リストに要素xがあり、各クエリは最悪の時間O（log n）ですか？

— sdcvvc

@Filip：見やすいですか？それが本当なら、それは問題を解決することに同意します。

— 伊藤剛

回答:

これが不可能だという証拠です。このようなデータ構造を構築できるとします。ビルドします。次いで、選択、リストからランダムにアイテムを追加ここでそれらのそれぞれにリスト上の任意の二つのアイテムの間の差よりも小さい場合、得られた項目のいずれかにあるかどうかを確認するためにクエリを実行リスト。あなたは行ってきましたこれまでに照会します。 $n/\log n$ $\epsilon$ $\epsilon$ $O(n)$

私は、あなたが行っている比較は、アイテムかどうかを伝えるのに十分であることを主張したい元のリストには、任意の新しい項目よりもより小さいか大きい。わからなかったとしましょう。これは比較ベースのモデルであるため、その後、あなたがいるかどうか分からないでしょうに等しかった、あなたのデータ構造が動作することを仮定の矛盾か。 $a$ $b$ $a$ $b$

ここで、選択した項目はランダムであったため、元のリストをそれぞれサイズリストに分割するのに十分な情報があれば、比較の確率が高くなり。これらの各リストを並べ替えることにより、ランダム化された比較のみに基づく時間並べ替えアルゴリズム、矛盾を取得し。 $n/\log n$ $n/\log n$ $O(\log n)$ $O(n \log \log n)$

— ピーター・ショー
ソース

証拠を理解する助けにいくつかのヒント（私は自分自身はもちろん、それを正しく理解と仮定）：

項目は後の項目で記入する必要がある

それらに追加されました。あなたが知っている例比較モデル保証

と

、保持しているが

リストは「昇順」にあります。いずれの高いリスト内のすべての要素は、任意の下のリスト内のすべての要素よりも高くなっています。元のクエリの後、あなたは十分に持っている情報あなたがランダムに選択した項目、周りのリストを作るために

b

$b$

ϵ

$\epsilon$

a \leq b

$a \leq b$

a \geq b

$a \geq b$

n / \log n

$n / \log n$

— アレックス10ブリンク

（続き）証明を保持するために、指定された時間内にリストを明示的に作成する必要さえないことに注意してください。

— アレックス10ブリンク

私はこの証拠を静かに理解していません。最終的な矛盾は「比較のみに基づくアルゴリズム」ではありませんが、アルゴリズムの最初のステップで追加しました

（「さらに、各項目に

リスト上の任意の二つのアイテムの間の差よりも小さくなっています」）。なぜアイテムに非離散的な合計順序があると仮定した場合でも、アルゴリズムは比較のみに基づいていると正当化されるのはなぜですか？

ϵ

$\epsilon$

ϵ

$\epsilon$

— アルテムKaznatcheev

@Artem：あなたのオリジナルの入力は要素から構成され

。その後、新しいセットの構築

。元を表し

として

および変性

x \in X

$x \in X$

X^{'} = X \times {0, 1}

$X' = X \times \{0,1\}$

x \in X

$x \in X$

(x, 0) \in X^{'}

$(x,0) \in X'$

x + ϵ

$x + \epsilon$ として

。ここで、ブラックボックスアルゴリズムを使用します。アルゴリズムは

要素を比較します

(x, 1) \in X^{'}

$(x,1) \in X'$

X^{'}

$X'$ お互いに; このようなクエリに答えるには、

一定数の要素を互いに比較するだけです。したがって、比較モデルでは、すべてが一定のオーバーヘッドで実行可能である必要があります。

X

$X$

— ユッカスオメラ

@Aryabhata：あります。何である

O (\log^{2} n)

$O(\log^2 n)$ アルゴリズムは？

— ピーターショー

ここは別の証明であり、クエリ時間構造と前処理ます。 $\mathcal{O}(\log ^k n)$ $\mathcal{O}(n)$

前処理で比較を行い、半順序になると仮定します。 $\mathcal{O}(n)$

ここで、最大のアンチチェーンのサイズを考えます。これらの要素は比較できないため、クエリアルゴリズムを使用するには、その必要です $A$ $\mathcal{O}(\log ^k n)$ 。 $A = \mathcal{O}(\log ^k n)$

現在、ディルワースの定理により、サイズチェーンへのパーティションがあります。 $A$

これで、アルゴリズムを補完して、パーティション内のチェーンを決定できます。比較の有向グラフを作成し、到達可能性分析を行うことで、2つの要素が比較可能かどうかを判断できます。これは、追加の比較なしで実行できます。ここで、サイズ各可能なパーティションを総当たりして、チェーンのパーティションであるかどうかを判断します。 $A$

チェーンができたら、それらをマージして、リスト全体をソート比較アルゴリズムを提供できます。 $\mathcal{O}(n \log \log n)$

— アルヤバタ
ソース

これはいいアイデアです。また、チェーンパーティションをアルゴリズムに認識させる必要があることを示すことができる場合、mergesortを使用して、Jensenを使用するのではなく、追加のO（n log log n）比較のみを使用して入力全体を並べ替えることを示すことができます。しかし、問題があります。前処理アルゴリズムでチェーンパーティションを構築する必要があるのはなぜですか。はい、チェーンパーティションが存在する必要がありますが、それはアルゴリズムに知られているものとは大きく異なります。

— デビッドエップスタイン

さて、私は今この証拠を信じています。また、ポリログクエリ時間を達成するには、追加の

の範囲内にあるいくつかの比較を使用する必要があることをより強く示しています。いいねちなみに、チェーンパーティションは、ブルートフォース検索を必要とするのではなく、すでに実行された比較のセットから多項式時間で見つけることができますが、それはあなたの引数に違いをもたらしません。

O (n \log \log n)

$O(n\log\log n)$

— デビッドエップシュタイン

証明は、各クエリに対して

前処理または

いずれかが必要であることを実際に示しています。もちろん、両方ともきついです。これは、バイナリ検索と線形検索が唯一の「興味深い」検索アルゴリズムであることを示しています（少なくとも古典的な世界では）。

Ω (n \log n)

$\Omega(n\log n)$

Ω (n)

$\Omega(n)$

— ユヴァルフィルマス

@Yuval：たぶん、あなたはこの観察結果を実際の答えとして書くべきです。答えの証明から上記の結果を得るために適度な仕事をしなければならないように思えます。

— ピーターショー

@Yuval：証明についての考え方は、私はあなたがいずれかを持っている必要があることを参照して

前処理または

すべてのクエリ時間を

。

前処理時間と

を持つことが可能です

Ω (n \log n)

$\Omega(n \log n)$

Ω (n^{1 - ϵ})

$\Omega(n^{1-\epsilon})$

ϵ

$\epsilon$

o (n \log n)

$o(n \log n)$

クエリ時間ます。リストをサイズ

リストに分割でき

O (n / \log n)

$O(n / \log n)$

\log n

$\log n$

n / \log n

$n/\log n$ 時間内の各

中央値検出を繰り返し使用し

。

θ (n \log \log n)

$\theta(n \log\log n)$

— ピーターショー

Peter Shorの回答にあるように、比較ベースのモデルのメンバーシップを除外するには、要素がどのメンバーと比較されるかを知る必要があります。したがって、ランダムクエリ（クエリされた非メンバーよりも小さいメンバーの数はランダムです）を使用すると、ソートされていない値を持つことに関連する情報が得られます。したがって、いくつかの定数場合、を使用し $k<n$ $Θ(n \log k)$ $n$ $c>0$ $c \, n \log k$ preprocesssingを、我々は持つことができませんクエリコスト。これはにデータを並べ替えることができるので、一定の要因に最適最大でにほぼ等しいバケット（ソートされていない各バケット）可能時間、クエリコスト。 $≤c \, n \log k/k$ $k' = k / \log k ≤ n/\log n$ $O(n \log k') = O(n \log k)$ $O(n/k')$

特に、前処理を使用すると、クエリコストを持つことができません。また、に対応して前処理における $O(n)$ $o(n)$ $o(n \log n)$ $k$ $O(n^ε)$ すべてのための、従って照会コスト。 $ε>0$ $Ω(n^{1−ε})$

— ドミトロ・タラノフスキー
ソース