コンテンツに基づく会話の分類


8

会話の種類を区別できる分類子を設計できるようにしたいと思います(気分、誠実さ、または結果について必ずしも何も伝えられていませんが、少し離れすぎています)。

たとえば、会話の50のサンプルのうち、10は将来のイベントに関する情報を求める両方の当事者を含み、30は目標がないように見え、10は過去のイベントについて別の当事者から情報を求めることを含みます(実際、アルゴリズムはこれらは、実際の状況に関係なく、タイプI、II、またはIIIです。

言い換えると、話者の順序はコンテンツと一緒に重要であり、おそらく特定のキーワードでアルゴリズムをシードすることによって助けられるでしょう。

このタスクをかなり高い精度で実行できる分類システムはありますか?


1
明確にするために、このテキストデータですか、オーディオデータですか?
tdc 2012

1
@tdcテキストデータ、申し訳ありません
jonsca

回答:


4

これは私がそれに取り組む方法です。テキストがクラスIまたはIIIであるかどうかを実際に確認する必要があります(そうでない場合、クラスIIになります)。

  • 最初に、クラスIおよびIIIの単語のバッグを定義します。あなたは手動でこれを行うことができます
  • 各テキストについて、これら2つのクラスの単語のtf-idfを計算し、それを合計します(2つの合計を取得します)。
  • これらの2つの合計の一部が事前定義されたしきい値を超える場合、そのクラスに属します。

十分な大きさの学習データセットがある場合は、単語の2つのバッグとそれらの2つのしきい値を簡単に見つけることができます。


私はあなたの質問を読んでtf-idfをチェックするつもりでした。有望に聞こえます。
jonsca
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.