初期キーワードに基づいて関連する単語のリストを増やす方法は?


19

最近、Googleスプレッドシートで利用できるクールな機能を見ました:「青」、「緑」、「黄」などの連続したセルにいくつかの関連キーワードを書くことから始め、同様のキーワードを自動的に生成します(この場合、他の色)。このYouTubeビデオで他の例を参照してください。

これを自分のプログラムで再現したいと思います。私はFreebaseを使用することを考えており、直感的には次のように機能します:

  1. Freebaseで指定された単語のリストを取得します。
  2. 彼らの「共通分母」を見つけ、これに基づいて距離メトリックを構築します。
  3. 元のキーワードとの「距離」に基づいて他の概念をランク付けします。
  4. 次に近い概念を表示します。

私はこの分野に詳しくないので、私の質問は次のとおりです。

  • これを行うためのより良い方法はありますか?
  • 各ステップで使用できるツールは何ですか?

私の推測では、これは大規模なコーパスでの学習トピックに基づいていると思います。
tchakravarty

それらの説明を見つけたい場合は、Google Setsと呼ばれる基本的な方法に関する論文があったと思います。
jamesmf

1
この問題は「クエリ拡張」と呼ばれます。
エムレ

回答:


15

word2vecアルゴリズムは、類似した単語のリストのためのより多くの要素を取得するための良い方法かもしれません。これは、Wikipediaベースのトレーニングデータで以前に実証された、教師なしの「ディープラーニング」アルゴリズムです(ヘルパースクリプトはGoogleコードページで提供されます)。

現在、CおよびPythonの実装があります。このチュートリアルによってRadimŘehůřek、著者のGensim話題モデリングライブラリは、起動するための優れた場所です。

チュートリアルの「単一トピック」のデモンストレーションは、1つの用語に類似した単語を取得する良い例です(「赤」または「黄色」で検索してみてください)。この手法を拡張して、入力単語のセットに対して全体的な類似性が最も高い単語を見つけることができるはずです。


5

コーパス内の単純な単語の共起を利用する頻度ベースのアプローチを検討しましたか?少なくとも、ほとんどの人がこれを使用するのを見てきました。マニングとシュッツェの本で簡単に説明されているかもしれないと思うし、このようなことを大学院の宿題として覚えているようだ...

詳細はこちら:http : //nlp.stanford.edu/IR-book/html/htmledition/automatic-thesaurus-generation-1.html

このステップの場合:

元のキーワードとの「距離」に基づいて他の概念をランク付けします。

調べることができるいくつかのセマンティック類似性メトリックがあります。以下に、WordNetのこれらの類似性メトリックのいくつかを使用して、クラスプロジェクト用にまとめたスライドへのリンクを示します。http//www.eecis.udel.edu/~trnka/CISC889-11S/lectures/greenbacker-WordNet-Similarity。 pdf


3

これは、宿題の割り当てからGoogleサイズのプロジェクトまで、範囲が異なる可能性がある素晴らしい問題の1つです。

実際、単語の共起から始めることができます(例えば、条件付き確率)。ストップワードが非常に人気があるという理由だけで、ほとんどのワードに関連するストップワードのリストを取得することがすぐにわかります。条件付き確率のリフトを使用すると、ストップワードが処理されますが、関係がエラーになりやすくなります(ほとんどの場合)。Jacardを試すこともできますが、対称であるため、見つからない多くの関係があります。

次に、ベースワードから短い距離でのみ表示されるリレーションを検討します。一般的なコーパス(例:ウィキペディア)とユーザー固有(例:彼のメール)に基づいて関係を検討することができます(また検討する必要があります)。

非常にまもなく、すべての測定値が良好で、他の測定値よりもいくつかの利点がある場合、多くの関連性測定値があります。

そのような手段を組み合わせるために、問題を分類問題に還元したいと思います。

単語のパリのデータセットを作成し、「関連する」というラベルを付ける必要があります。大きなラベル付きデータセットを作成するには、次のことができます。

  • ポジティブのために、既知の関連語のソース(古き良きウィキペディアのカテゴリなど)を使用する
  • 関連するものとして知られていない単語のほとんどは関連していません。

次に、ペアの特徴として持っているすべてのメジャーを使用します。これで、教師付き分類問題の領域にいます。ニーズに応じて評価されたデータセットに分類子を構築し、ニーズに合った類似度を取得します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.