gensimを使用しているため、おそらくdoc2vec実装を使用する必要があります。doc2vecは、word2vecをフレーズレベル、文レベル、およびドキュメントレベルに拡張したものです。これは非常に単純な拡張です。ここで説明します
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensimは直感的で、高速で、柔軟性があるため優れています。すばらしいのは、公式のword2vecページから事前トレーニング済みの単語の埋め込みを取得でき、gensimのDoc2Vecモデルのsyn0レイヤーが公開されているので、これらの高品質のベクターで単語の埋め込みをシードできることです。
GoogleNews-vectors-negative300.bin.gz(Google Codeにリンクされています)
gensimは、文をベクトル空間に埋め込むための最も簡単な(そして今のところ私にとっては最高の)ツールだと思います。
上記のLe&Mikolovの論文で提案されたもの以外に、他の文章からベクトルへのテクニックが存在します。スタンフォードのソッチャーとマニングは、確かにこの分野で働いている最も有名な研究者の2人です。彼らの作品は作文の原則に基づいています-文の意味論は以下から来ています:
1. semantics of the words
2. rules for how these words interact and combine into phrases
彼らは、構成レベルを使用して文レベルの表現を構築する方法について、いくつかのそのようなモデル(ますます複雑になる)を提案しました。
2011- 再帰オートエンコーダの展開(非常に単純です。興味があればここから始めてください)
2012- 行列-ベクトルニューラルネットワーク
2013- ニューラルテンソルネットワーク
2015- ツリーLSTM
彼の論文はすべてsocher.orgで入手できます。これらのモデルのいくつかは利用可能ですが、私はまだgensimのdoc2vecをお勧めします。まず、2011 URAEはそれほど強力ではありません。さらに、news-yデータの言い換えに適した重みがあらかじめトレーニングされています。彼が提供するコードでは、ネットワークを再トレーニングすることはできません。また、異なるワードベクトルを入れ替えることもできないため、Turianからの2011年のpre-word2vec埋め込みで立ち往生しています。これらのベクトルは、word2vecやGloVeのレベルにはありません。
Tree LSTMはまだ使用していませんが、非常に有望です。
tl; drええ、gensimのdoc2vecを使用してください。しかし、他の方法が存在します!