5
文の類似性予測
私は次の問題を解決しようとしています:データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。 新しい文:「I opened a new mailbox」 データセットに基づいた予測: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました(およびRNNは基本的な方法に大きな改善をもたらすべきではありません)、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか?これを解決する他のテクニック/アルゴリズムはありますか(できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます)?