メールスレッドから個別のメールを抽出する


7

ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。

たとえば、次のメッセージについて考えてみます。

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。

私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。

たとえば、メールスレッドの2番目のメッセージが次のように中断した場合

---------- Forwarded message ---------- 

上記の代わりに

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

私の質問は、そのようなことを行おうとしている多くの人々が間違いなくそのような問題に直面したであろうということです。メールをかなりうまく分割する紙や何か他のもののかなりしっかりした実装はありますか?


このリンクはあなたにとって役に立ちませんか???
Abhishek Verma 2017年

それは一般的な方法で問題を説明しますが、これを行うための既製のユーティリティ/ライブラリがあるかどうかを確認したいだけです。それは役に立ちますが、勉強して実装するには多すぎます。
Greedy Coder 2017年

1
すでに見たことがあるかどうかはわかりませんが、引用した論文の著者は、彼のWebサイトでjangadaと呼ばれるソフトウェアでの方法論の実装を利用できます。
ボガス

@ボガス:ありがとう。今まで見たことがない。それがどのように機能するか見てみましょう。
Greedy Coder 2017年

回答:


1

まず、ARPAインターネットテキストメッセージの形式について読むことができます

電子メールから意味のある情報を抽出したい場合は、正規表現の解析を1つ上げる必要があります。正規表現に関するOreillyの本、または正規表現について読むことをお勧めします

受信メールからテキストキャプチャしてテキストファイルに書き込むツールもあります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.