タグ付けされた質問 「information-retrieval」

11
トレンドのトピックやタグを計算する最良の方法は何ですか?
多くのサイトは、「過去24時間で最もホットなトピック」などの統計を提供しています。たとえば、Topix.comのセクション「ニューストレンド」ではこれを示しています。そこでは、言及の数が最も急増しているトピックを見ることができます。 トピックについてもこのような「バズ」を計算したいと思います。どうすればこれができますか?アルゴリズムは、常にホットなトピックに重みを付ける必要があります。通常(ほとんど)誰も言及しないトピックは、最もホットなものでなければなりません。 Googleは「ホットトレンド」を提供し、topix.comは「ホットトピック」を示し、fav.or.itは「キーワードトレンド」を示します。これらのサービスにはすべて1つの共通点があります。 「Britney Spears」、「weather」、「Paris Hilton」などの用語は、常に暑くて頻繁であるため、これらのリストには表示されません。この記事では、これを「ブリトニースピアーズ問題」と呼んでいます。 私の質問:どのようにしてアルゴリズムをコーディングするか、または既存のアルゴリズムを使用してこの問題を解決できますか?過去24時間に検索されたキーワードのリストがあれば、アルゴリズムは(たとえば)最もホットな10個を表示するはずです。 上記の記事では、ある種のアルゴリズムについて言及しています。私はそれをPHPでコーディングしようとしましたが、うまくいくとは思いません。過半数を見つけるだけですよね。 あなたが私を助けてくれることを願っています(コーディング例は素晴らしいでしょう)。

6
Python:tf-idf-cosine:ドキュメントの類似性を見つける
私はパート1とパート2で利用可能なチュートリアルに従っていました。残念ながら、著者には、コサイン類似度を使用して2つのドキュメント間の距離を実際に見つけることを含む最後のセクションの時間はありませんでした。私は記事内の例に従って、stackoverflowからの次のリンクの助けを借りて、上記のリンクで言及されているコードが含まれています(人生を楽にするために) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.