タグ付けされた質問 「lucene」

1
機械学習は検索エンジンの設計にどのように組み込まれていますか?
現在、Apache Luceneに基づいた小さな社内検索エンジンを構築しています。その目的は簡単です-いくつかのキーワードに基づいて、社内で書かれた記事を提案します。基本メトリックとしてかなり標準的なTF-IDFスコアリングを使用しており、その上に独自のスコアリングメカニズムを構築しています。これらのすべては、ランキングがめちゃくちゃになっているように見えるいくつかのコーナーケースを除いて、うまく機能しているようです。 したがって、私がやろうとしているのは、検索結果ページに小さな関連/非関連リンクを追加して、その結果が最初に含まれるべきかどうかの認識に応じてユーザーがそれらのいずれかをクリックできるようにすることです。 私のアイデア これらの関連/非関連をラベルとして扱い、トレーニングデータを作成します。 このデータを使用して分類器(SVMなど)をトレーニングします このモデルを検索エンジンに組み込みます。つまり、新しい結果はすべて分類子を通過し、関連性があるかどうかのラベルが割り当てられます。 このアプローチは直感的に思えますが、実際に機能するかどうかはわかりません。私には2つの具体的な質問があります。 すべての機能を抽出する必要がありますか? 機械学習コンポーネントを検索エンジンに統合するより良い方法はありますか?私の最終目標は、ビジネスロジックとユーザーフィードバックの両方に基づいてランキング関数を「学習」することです。

1
検索テキストのトークン化に適した手法
検索エンジンが行うのと同じまたは同様の方法で一部のテキストをトークン化する方法を探しています。 これを行う理由は、トークンに対して統計分析を実行できるようにするためです。私たちが使用している言語はpythonであるため、その言語で機能するテクニックを好みますが、必要に応じて別の言語を使用するように設定することもできます。 例 元のトークン: 私たちはいくつかの素晴らしいブリトーを持っています! より簡略化:(複数形と句読点を削除) 私たちはいくつかの素晴らしいブリトーを持っています さらに簡略化:(余分な単語を削除) 素晴らしいブリトー 最良:(肯定的および否定的な意味を認識する): ブリトー-ポジティブ-
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.