多言語感情コーパスについて


7

各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事(機械学習実験では1言語あたり100k以下)の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。

コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか?

私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。 ここに画像の説明を入力してください

次に、感情分析を行う既存の人気のあるすべてのライブラリ(既にMechanical Turkを使用しているものもある)(AFINNBing LiuMPQAVADERTextBlobなど)について考えました

  1. センチメントのアイデア

私の現在のアイデアは、これらのライブラリのいくつか(たとえば、AFINN、次にTextBlob、次にVADER)で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか?

  1. 言語のアイデア

次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語(スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など)を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。

このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。

ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか?


2
これの主な問題は、記事が長くなるほど感情が明確にならないことです。長いニュース記事には、ポジティブ、ネガティブ、ニュートラルの部分をさまざまな比率で簡単に含めることができます。そのため、アンケートの回答やツイートなどの短いテキストの感情分析が主に表示されます。記事から、感情をどのような感情に割り当てる必要があるかは明らかですか?
oW_

面白い。ご回答ありがとうございます!ファイルの全体的な感情が何であるかは明らかではありません。
Chris、

@Chris感情が明確でない場合、なぜそれらにラベルを付けたいのですか?記事ごとの感情を持つ目的は何ですか?
Bruno Lubascher

@BrunoGLありがとうございます。トレーニングセットの各記事にラベルを付けます。これらはランダムな記事です。私はそれらをコーパス全体の一般化(NNのトレーニング)に使用しています。
クリス

記事全体を1つの感情でラベル付けするのではなく、記事の各行に独自の感情を付けることができますか?
18年

回答:


1

いくつかの質問と考えが思い浮かびます。

  1. コーパスにはどの言語がありますか?これは、利用できるサービスに影響を与える可能性があります。
  2. あなたが言及したサービスによってネイティブにサポートされている言語の「感情のアイデア」が好きです。
  3. 翻訳エンジンが元の言語の感情を捉えられない可能性があるため、「言語のアイデア」は最後の手段として保持します。
  4. 分類のために送信されるサンプルの数を制限できる場合は、Mechanical Turkが適しています。言語ごとに、たとえば、単語数を30個の(選択した)クラスターに単語数でクラスター化してから、クラスター内でサンプリングを実行して、Mechanical Turkに送信する候補のパッセージを識別できます。私はこの手法を使用して、ベクトル空間全体でより均一にサンプリングしようとしました。

oW_のコメントを却下しないでください。記事を段落に分割することを真剣に検討する必要があります。段落スコアはいつでも記事に集約できますが、テキストが長くなるにつれて代表スコアを1つ取得するのは困難です。

HTH

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.