2
絵文字の感情データ
実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。 とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。 センチメントアノテーションを含むデータベース(SentiWordNetなど)はありますか? (SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)。通常の単語よりも絵文字の方が...) また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。