ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。
たとえば、次のメッセージについて考えてみます。
Hi,
Can you offer me a better discount.
Thanks,
Mr.X
Customer Relations.
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Hello Mr.X,
Does the below work out. Do let us know your thoughts.
Thanks,
Mr.Y
Sales Manager.
メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。
私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。
たとえば、メールスレッドの2番目のメッセージが次のように中断した場合
---------- Forwarded message ----------
上記の代わりに
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
私の質問は、そのようなことを行おうとしている多くの人々が間違いなくそのような問題に直面したであろうということです。メールをかなりうまく分割する紙や何か他のもののかなりしっかりした実装はありますか?
このリンクはあなたにとって役に立ちませんか???
—
Abhishek Verma 2017年
それは一般的な方法で問題を説明しますが、これを行うための既製のユーティリティ/ライブラリがあるかどうかを確認したいだけです。それは役に立ちますが、勉強して実装するには多すぎます。
—
Greedy Coder 2017年
@ボガス:ありがとう。今まで見たことがない。それがどのように機能するか見てみましょう。
—
Greedy Coder 2017年