個々の検索クエリ間の距離を計算するいくつかの標準的な方法は何ですか?


8

「ドキュメント」(ウィキペディアの記事、ニュース記事など)の間隔についても同様の質問をしました。検索クエリはドキュメントよりかなり小さく、かなりうるさいので、これを別の質問にしました。したがって、ここで同じ距離メトリックが使用されるかどうかはわかりません(そして疑います)。

バニラの字句距離メトリックまたは最新のセマンティック距離メトリックのいずれかが推奨され、後者がより優先されます。


2
検索クエリはノイズが多いわけではありません(実際には検索に関連しないクエリの単語はほとんどありません)が、スペルミス、あいまいさ、スラングなど、個別に処理する必要のあるものが含まれている可能性があります。これらの問題を除けば、クエリとドキュメントはほとんど同じ方法で処理される可能性があります。
ffriend 2014

クエリからキーワードベクトルを抽出し、それらのベクトル間の距離、および類似性の定義方法を計算できるかもしれませんが、これはまだ未解決の質問です:)
crazyminer '

1
どちらの質問も幅広く主観的なものであり、陳腐化を避けるために大幅なメンテナンスが必要になります。コミュニティはこの種の質問を高く評価しているので、この議論がもう一方の適切なサブセットである場合、どちらか一方を維持することは合理的かもしれませんが、両方ではありません。尋ねないようにすべき質問の種類を
エア

おかげで、AirThomas!ffriendの投稿は確かにこれが明らかに重複していることを示しているようです。これで何ができるか見てみます。
Matt

回答:


4

私の経験から、(自然言語のあいまいさのため)いくつかのクラスのクエリのみが字句機能に分類できます。代わりに、ブール型の検索結果(ランキングではなく、ドキュメントではなく、サイトまたはサイトのセグメント)を(単語ではなく)分類の機能として使用できます。このアプローチは、クエリに大きな字句のあいまいさがあるクラスでうまく機能しますが、クエリに関連する多くの優れたサイト(映画、音楽、商用クエリなど)が存在します。

また、オフライン分類の場合、クエリサイトマトリックスでLSIを実行できます。詳細については、「情報検索入門」を参照してください。


関連するメモとして、この関連論文を見つけました。
Matt

4

コサイン類似度メトリックは、ドキュメントの長さを制御する(完全ではないにしても)良い仕事をします。そのため、コサインメトリックとtf idfの重みを使用して、2つのドキュメントまたは2つのクエリの類似性を比較することは、どちらの場合でもうまくいくはずです。また、最初にtf idfの重みに対してLSAを実行し、次にコサイン距離\類似度を計算することをお勧めします。

検索エンジンを構築しようとしている場合は、solrやelastic searchなどの無料のオープンソース検索エンジン、またはraw luceneライブラリーを使用することをお勧めします。クエリを処理して類似性の問題を文書化します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.