3
n-gramによってインデックス付けされたデータを保存するための効率的なデータベースモデル
私は、大きなテキストコーパスに存在するn-gramの非常に大きなデータベースを作成する必要があるアプリケーションに取り組んでいます。 3つの効率的な操作タイプが必要です。n-gram自体によってインデックス化されたルックアップと挿入、およびサブn-gramを含むすべてのn-gramのクエリ。 データベースは巨大なドキュメントツリーである必要があり、Mongoなどのドキュメントデータベースはうまく機能するはずですが、大規模に使用したことはありません。 Stack Exchangeの質問形式を知っているので、特定のテクノロジに関する提案を求めているのではなく、このようなものを大規模に実装するために探しているデータベースのタイプを求めていることを明確にしたいと思います。