gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。
各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。
内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?