これは、一般的なNLPの質問に似ています。Word2Vecを埋め込む単語をトレーニングするための適切な入力は何ですか?記事に属するすべての文は、コーパス内の別個の文書である必要がありますか?または、各記事はコーパス内のドキュメントである必要がありますか?これは、Pythonとgensimを使用した単なる例です。
文で分割されたコーパス:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
コーパスを記事ごとに分割:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
PythonでのWord2Vecのトレーニング:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)