実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。
とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。
センチメントアノテーションを含むデータベース(SentiWordNetなど)はありますか?
(SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)
。通常の単語よりも絵文字の方が...)
また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。