Word2Vec対Sentence2Vec対Doc2Vec

最近、Word2Vec、Sentence2Vec、Doc2Vecという用語に出くわし、ベクトルセマンティクスが初めてなので混乱しました。誰かがこれらの方法の違いを簡単な言葉で詳しく説明してください。各方法に最適なタスクは何ですか？

— スミス
ソース

まあ、名前は非常に簡単で、ベクトル表現の明確なアイデアを与えるはずです。

Word2Vecアルゴリズムは、単語の分散セマンティック表現を構築します。トレーニングには、Distributed Bag of Wordsとスキップグラムモデルの2つの主なアプローチがあります。1つは中心語を使用して文脈語を予測することを含み、もう1つは文脈語を使用して語を予測することを含みます。Mikolovの論文で詳細を読むことができます。

同じアイデアを文章や文書にまで広げることができ、単語の特徴表現を学習する代わりに、文章や文書で学習することができます。ただし、SentenceToVecの一般的な概念を理解するには、文内のすべての単語の単語ベクトル表現の数学的な平均と考えてください。SentenceToVecをトレーニングせずに平均化するだけで非常に優れた近似値を取得できますが、もちろん制限があります。

Doc2Vecは、センテンスもドキュメントと見なすことができるため、SentenceToVecまたはWord2Vecの概念を拡張します。トレーニングの考え方は同じままです。詳細については、MikolovのDoc2Vec ペーパーを参照してください。

アプリケーションに来ると、タスクに依存します。Word2Vecは、単語間のセマンティックな関係を効果的にキャプチャするため、単語の類似性の計算に使用したり、感情分析などのさまざまなNLPタスクに機能として提供したりできます。言葉だけではありません。たとえば、2つのスタックオーバーフローの質問が互いに重複しているかどうかを把握しようとしている場合。

簡単なグーグル検索は、これらのアルゴリズムの多くのアプリケーションにつながります。

— ヒマンシュライ
ソース

単語ベクトルの平均化とdoc2vecの使用の違いは何ですか？doc2vecは、ベクトルの構築中に（word2vecがそうではない間）文の単語の周囲を説明しますか？

— ジョンストロード

Doc2Vecは、単語とともにドキュメントのランダムに初期化されたベクトルを学習します（ドキュメントは文の場合もあります）。手動で単語ベクトルを平均化しても、ドキュメント全体から学習できないため、同じ能力を発揮しません。最近、ドキュメントの類似性などを扱う際に、パラグラムベクトルが非常に使用されています。

— Himanshu Rai