HTML文字列があり、その文字列に関連する単語が含まれているかどうかを確認したいと考えています。
関連性は、テキストの頻度に基づいて測定できます。
私の問題を説明する例:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
次に、他のいくつかの単語をテストします。
bike repairs
dog poo
bike repairs
関連としてマークするdog poo
必要がありますが、関連としてマークしないでください。
質問:
- これはどのように行うことができますか?
in
またはなどのあいまいな単語を除外する方法or
あなたのアイデアをありがとう!
私はそれがどんなキーワードがウェブサイトに関連しているのかを理解するためにグーグルがすることだと思います。私は基本的に彼らのページ上のランキングを再現しようとしています。
巨大なトピックです。Intoto IRをご覧ください。これにより、基本的な第一原理から、求めているものを構築する方法がわかります。検索に何かがあるTF-IDF、これはベイズ確率ですべてのものと見て解決しない実現
—
EdChum
「修理」を関連性があると考えるのはなぜですか?
—
ffriend 2014
ほんの一例でした。それについてあまり考えませんでした:)。それは関係ないと思いますか?
—
Hendrik
@Hendrik:@ <username>を使用してユーザーのアドレスを指定してください-SEはあなたのコメントについて私に通知しませんでした。関連性のカウントは、検索エンジンの重要なポイントです(通常、Webページと検索クエリの関連性を計算しますが、必要ですか?)。似ているが正確ではない単語(「自転車」や「サイクリスト」など)がある場合に、検索クエリに対するドキュメントの関連性を計算する方法を知りたいだけだと思いますか?
—
ffriend
私はあなたが2つのことを求めていると思います。1つは、かなりよく理解されている検索問題です。SolrまたはElasticsearchを使用して、重い作業を行うことができます。どちらも、ヒットに重みを付けることで、コレクション内の関連する文書を見つけることができます。ただし、テキストの意味をより深く理解したい場合(つまり、「修理」は言及されていませんが、自転車店での典型的な活動です)、純粋な検索エンジンは横ばいになる場合があります。
—
eckes 2014