絵文字の感情データ

実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。

とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。

センチメントアノテーションを含むデータベース（SentiWordNetなど）はありますか？

（SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)。通常の単語よりも絵文字の方が...）

また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。

machine-learning classification parsing

— エーリッヒ・シューベルト
ソース

現在、このようなものが存在することを信じないでください、しかし、あなたがこれのために何かをまとめるならば、それが好きです！

— インディコ14

エーリッヒ・シューベルト、まったく同じものを探しています！役に立つリソースを見つける機会はありましたか？

— saeed mehrabi 16

合計972個の絵文字は、それらを手動でラベル付けできないほど大きなものではありませんが、優れた根拠として機能するとは思いません。Twitterのような情報源には、皮肉、皮肉、および感情記号（絵文字や顔文字など）が通常の解釈とは異なる何かを意味するその他のトリッキーな設定がたくさんあります。たとえば、誰かが「xxxはクライアントをだまし、今では彼らは自分自身をだましています！ハハハ！：D」と書くかもしれません。これは間違いなく否定的なコメントですが、著者はxxx社が問題に直面していることを喜んでおり、したがって肯定的な絵文字を追加しています。これらのケースはそれほど頻繁ではありませんが、グラウンドトゥルースには適していません。

より一般的なアプローチは、実際のデータセットを収集するための種として絵文字を使用することです。たとえば、このペーパーでは、著者は絵文字と感情的なハッシュタグを使用して、さらに分類するのに役立つ単語の語彙を取得します。

— 友だち
ソース

実際、私は同意しません。著者は彼らが困っているのを好むので、それはそこで肯定的な感情です。これは会社に対する否定的なコメントですが、それでも著者による肯定的な感情です。この単純なシナリオ（これが完全な目標であると言っているわけではありません）では、ユーザーがどの絵文字を投稿に追加するかを予測することは、合理的なタスクのように思えます。実際には、あなたは..「ガットはf_cked :-)」「ガットはf_cked :-(」とは対照的に、考えてみましょう絵文字が不可欠になります多くのケースを構築することができます

— エーリヒ・シューベルト

被験者に対する人の態度とは対照的に、人の感情を推定しようとすると、この例はうまくいきません。しかし、他にもたくさんあります。皮肉は一般的なケースです。「ああ、あなたは本当の「マスター」です;）」という文を考えてください。人間は否定的な文脈を捉えることができますが、肯定的な絵文字は肯定的な感情を指し示します。しかし、私はそれを本当に理解していません：ツイートから主観的な情報を抽出したいですか、それとも可能な絵文字を予測したいですか？似ているように聞こえますが、2番目のタスクは感情分析に関するものではありません。少なくとも直接ではありません。

— ffriend

「ウィンク」スマイリーは、通常「ポジティブ」とは見なされませんが、「イロニック」と見なされます。これが、SentiWordNetなどの優れた辞書が理にかなっている理由です。SentiWordNetでおかしくなったら、複数の意味もあります！sentiwordnet.isti.cnr.it/search.php?q=funny（それはそうです、それは、正/負のような単純なようではありませんので、それらを手動で注釈を付けるために些細なことではない。しかし、あなたがなど、通常interrater-合意の検証を行う必要があります）

— エーリッヒシューベルト14

今、私はあなたの考えを見る。しかし、（ほとんどの）絵文字が私にとって良い予測子のように聞こえないため、他の機能を明示的に使用したくないという理由だけで、実際に機能するとは思いません。とにかく、これは私の経験に基づく単なる意見であり、データのみが本当の答えを出すことができます。幸運を！

— ffriend 14

他の機能を使いたくないと言ったのは誰ですか？しかし、これらのために、私は、データベース...見てきました

— エーリヒ・シューベルト

このGithubリポジトリは便利です（良い出発点）：https : //github.com/wooorm/emoji-emotion マイナス5（マイナス）からプラス5（プラス）の整数で価数が評価された絵文字のリスト。

サポートされているunicode-emojisのリストを参照してください：https : //github.com/wooorm/emoji-emotion/blob/master/Support.md

いくつかの絵文字は、ポジティブな感情とネガティブな感情の両方に使用されるため、stuck_out_tongue_closed_eyes（0）などの紛らわしい混乱の極性を受け取ることに注意してください。

— タル・ワイス
ソース