私は、word2vecを単語表現として使用して、ツイートに対する感情分析に取り組んでいます。
word2vecモデルをトレーニングしました。しかし、分類子をトレーニングするときに、すべてのツイートの長さが異なり、分類子(RandomForest)はすべての例を同じサイズにする必要があるという問題に直面しています。
現在、すべてのつぶやきについて、そのつぶやきのベクトル表現で終わるように、すべての単語のベクトルを平均化しています。
例:私のword2vecモデルは、各単語をサイズ300のベクトルとして表します。
私はTweet1
10ワード、Tweet2
5ワードで構成されています。
だから私がすることは、 Tweet1
(v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements.
の場合Tweet2
:
(v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements.
* v1_TweetXであるため、TweetXの最初の単語のベクトルなど。
これは正常に機能しますが、列車のさまざまなサイズと分類子のテキストの例を克服するために他にどのようなアプローチをとっていますか。
ありがとう。