1
メールスレッドから個別のメールを抽出する
ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。 たとえば、次のメッセージについて考えてみます。 Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. ---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------ Hello Mr.X, Does the below work out. Do let us know your thoughts. Thanks, Mr.Y Sales Manager. メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。 私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。 たとえば、メールスレッドの2番目のメッセージが次のように中断した場合 ---------- Forwarded message ---------- 上記の代わりに …