Word2Vecのより良い入力は何ですか?
これは、一般的なNLPの質問に似ています。Word2Vecを埋め込む単語をトレーニングするための適切な入力は何ですか?記事に属するすべての文は、コーパス内の別個の文書である必要がありますか?または、各記事はコーパス内のドキュメントである必要がありますか?これは、Pythonとgensimを使用した単なる例です。 文で分割されたコーパス: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] コーパスを記事ごとに分割: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …