私は、語彙のトピックにアプローチする方法についてのいくつかの入力と理論を探しています。
文字列のコレクションがあるとします。これは、1つの文または複数の文になる可能性があります。これらの文字列を解析して、最も重要な単語を取り除きたいと思います。おそらく、その単語がどれほど重要であるかを示すスコアが付いています。
私が意味することのいくつかの例を見てみましょう。
例#1:
「キューリグは本当に欲しいけど、買う余裕がない!」
これは非常に基本的な例で、1文だけです。人間として、ここでは「Keurig」が最も重要な言葉であることがすぐにわかります。また、「アフォー」は比較的重要ですが、それは明らかに文の主要なポイントではありません。「私」という言葉は2度出てきますが、実際には何の情報も伝えていないので、それほど重要ではありません。次のような単語/スコアのハッシュが表示されると思います。
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
例2:
「私の人生で最高の水泳練習の1つがありました。うまくいけば、自分の時間を維持して大会に参加できます。防水ではない時計を忘れずに持っていれば」
この例には複数の文があるため、全体を通してより重要な単語があります。例1のポイント演習を繰り返さないと、おそらく「水泳」(または「水泳練習」)、「競争」、および「ウォッチ」(または「防水」という非常に重要な単語が2つまたは3つ出てくると思います。ハイフンの扱い方に応じて、「時計」または「非防水時計」)。
このような例をいくつか挙げて、同様のことをするにはどうしたらよいでしょうか。すでにこれを行っている既存の(オープンソース)ライブラリまたはプログラミングのアルゴリズムはありますか?