署名ファイルと反転インデックスの最新の比較は何ですか?


7

検索インデックスに関する最新の論文には、転置インデックス(投稿リスト)がシグネチャファイル(ブルームフィルター)よりも明らかに優れているという記述が含まれていることがよくあります。以下は、2016年に発表された論文の例です。

この[シグネチャファイル]手法は比較的低い計算オーバーヘッドを提供しますが、Zobelらによる研究。[1998]は、インバーテッドファイルが署名ファイルを大幅に上回っていることを示しています。

転置インデックスは、最も一般化可能でパフォーマンスの高い構造としてベンチマークされています(Zobel et al。、1998)

すべての論文は、Zobel et al。、反転ファイルとテキストインデックスの署名ファイルを引用しているようです。

ただし、Zobelらを読んでいる場合は、正しく、彼らがする議論は根本的なものではありません(例えば、漸近的限界や情報理論的限界)。むしろ、X、Y、Zの手法で実装された署名ファイルと、A、B、Cの手法で実装された逆インデックス、および現在の現在のテクノロジ(非常に高いシーク/アクセスオーバーヘッドのディスク)と比較して、引数は)、逆インデックスはシークが少なくて済み、高速であるため優れています。

SSD、NVMe、またはRAMでこれらの技術を比較するより最近の比較はありますか、または1998年以降に発明された「新しい」技術を検討するより最近の比較はありますか?

回答:


1

新しい参照を知らない。

私の頭の上から:

署名ファイルには、転送ファイルによる候補者の検証が必要です。これには、多くのランダムアクセスが必要です。1回のランダムメモリアクセスは100以上のCPUサイクルです。100 CPUサイクルで多くの作業を行うことができます(たとえば、100を超えるIDシングルコアhttp://boytsov.info/pubs/simdcompressionarxiv.pdfを解凍できます)。

HDDまたはSSDの場合、ランダムアクセス速度はさらに悪くなります。実際、ランダムアクセス速度とシーケンシャルアクセス速度の間にギャップが広がっています。

このランダムアクセスを行う前に、プルーニング、早期終了などを行うことはできません。ところで、最も豪華な最近のデータ構造については、パーティション化されたエリアス-ファーノインデックスを確認する必要があります。http: //pages.di.unipi.it/ rossano / wp-content / uploads / sites / 7/2015/11 / sigir14.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.