word2vecにはどのくらいのトレーニングデータが必要ですか？

出典が異なる同じ言葉の違いを比較したい。つまり、「民主主義」などの不明確な言葉の使い方が著者によってどのように異なるかです。

簡単な計画は

「民主主義」という用語を述べた本を平文とする
それぞれの本には、交換するdemocracyとdemocracy_%AuthorName%
word2vecこれらの本でモデルを訓練する
間の距離を計算しdemocracy_AuthorA、democracy_AuthorB及びその他の再ラベルは、「民主主義」の言及

したがって、各作者の「民主主義」は、比較のために使用される独自のベクトルを取得します。

しかし、word2vec信頼できるベクトルを訓練するには、数冊の本よりはるかに多くのラベルが必要です（各ラベルが付けられた単語は、本のサブセットでのみ発生します）。公式ページには、言葉の十億を含むデータセットを推奨しています。

私は、そのような推論を行うために、word2vecまたは利用可能な場合は代替ツールを作成するために、1人の著者の本のサブセットがどのくらいの大きさであるかを尋ねたかっただけですか？

text-mining word-embeddings

あなたが民主主義のトピックについてのみ使用している本は、そうでない場合でも、本の内容間の大きな違いによって距離測定基準が圧倒されない可能性がありますか？これは、非常に高い次元の空間にいて、次元の呪いの手に触れられている問題の副作用です。関心のある単語の周囲の小さなテキスト領域のみを取得すると役立つ場合がありますが、それでも重要な問題があります。

— image_doctor 2015

はい、それがその本質です。これは、おそらく間違って考え抜かれた比喩です。本の章が色で表されていると想像してください。そして、本は全体として、章のすべての色の混合として表されます。西ヨーロッパの民主主義に関する本は、その章の合計として、全体的に赤みがかった色合いになる可能性があります。私たちが観光を青で表すならば、民主主義とそれが経済発展に及ぼす影響についての単一の章を含むキューバの観光に関する本は、強い青の色相を持つでしょう。したがって、2冊の本を全体として見た場合、非常に異なって見えます。

— image_doctor 2015

これは、2冊の本のベクトルが特徴空間でかなり離れているため、かなり異なるように見えるため、データサイエンティストが言いたいことを表現する、よりアクセスしやすい方法です。データをいじらないで必要な例の数を事前に定量化することは本当に難しいですが、言語は微妙で階層化されているため、できるだけ多くの例が必要になるでしょう。最終的には、試すまでわかりません。これは具体的な答えではありませんが、誰かが同様のことを直接経験したのでない限り、おそらくあなたが得られる最良の方法です。

— image_doctor 2015

word2vecはすでに「関心のある単語の周りの小さなテキスト領域」のみを使用しています。window文脈で多くの単語があなたの単語のためのモデルを訓練するために使用されているかのパラメータセットwは

— jamesmf

@politicalscientist私はこのプロジェクトを終えていませんでした。

— アントン・タラセンコ

doc2vec（または段落/コンテキストベクトル）がこの問題に適しているようです。

一言で言えば、単語ベクトルに加えて、中心または単語の予測に使用される「コンテキストベクトル」（この場合は、作成者の埋め込み）を追加します。

これは、「民主主義」に関するすべてのデータから利益を得るだけでなく、その著者の埋め込みも抽出することを意味します。これらを組み合わせると、各著者に関する限られたデータで各著者のバイアスを分析できます。

gensimの実装を使用できます。ドキュメントには、ソースペーパーへのリンクが含まれています。

— ハーフリング
ソース