タグ付けされた質問 「indexing」

1
最も効率的なデータインデックス付け手法は何ですか
誰もが知っているように、Lucene(Javaの場合)またはLucene.NET(.NETの場合)、MurMurHash、B + Treeなど、よく知られたインデックス作成アプリを使用したいくつかのデータインデックス作成手法があります。No-Sql/オブジェクトの場合指向データベース(私はC#で少し書いたり遊んだりしようとしています)、どの手法を提案しますか? MurMurhash-2について読み、特にv3のコメントでMurmurは非常に高速であると述べています。Lucene.Netにも良いコメントがあります。しかし、一般的に彼らのメモリフットプリントはどうですか?LuceneやMurmurよりもフットプリントが少ない(そしてもちろん高速の方が望ましい場合)効率的なソリューションはありますか?または、最良の結果を得るために特別なインデックス構造を作成する必要がありますか? 私が自分で書き込もうとすると、データノードの1%やデータノードの5%など、適切なインデックス付けに受け入れられるスケールはありますか?任意の有用なヒントをいただければ幸いです。

3

2
パンダのインデックスを数える
これは初歩的な質問のように感じますが、私はこれに非常に慣れていないので、それを解読したり、答えを見つけることができませんでした。 最終的に私がここでやろうとしているのは、特定の列の一意の値を数え、それらの一意の値のうち、一致する列に複数の一意の値があるものを特定することです。 したがって、このデータについて、私が判断しようとしているのは、すべての購入に対して「誰が」「複数のレシート」を持っているか、そして各製品カテゴリーに基づいて同じ情報を判断することです。 これまでの私のアプローチ: 次のようなデータセットがあります。 receipt,name,etc,category 1,george,xxx,fish 1,george,xxx,cat 2,george,xxx,fish 3,bill,xxx,fish 3,bill,xxx,dog 4,jill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,dog 6,george,xxx,fish だから私はこれを行うことができます: df.set_index(['name','receipt']) もっと面白くなる etc category name receipt george 1 xxx fish 1 xxx cat 2 xxx fish bill 3 xxx fish 3 xxx dog jill 4 xxx cat bill 5 xxx cat 5 xxx …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.