各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事(機械学習実験では1言語あたり100k以下)の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。
コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか?
私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。
次に、感情分析を行う既存の人気のあるすべてのライブラリ(既にMechanical Turkを使用しているものもある)(AFINN、Bing Liu、MPQA、VADER、TextBlobなど)について考えました。
- センチメントのアイデア
私の現在のアイデアは、これらのライブラリのいくつか(たとえば、AFINN、次にTextBlob、次にVADER)で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか?
- 言語のアイデア
次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語(スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など)を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。
このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。
ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか?