多くのテキスト文書(自然言語、構造化されていない)がある場合、それらに何らかのセマンティックメタデータで注釈を付ける可能な方法は何ですか?たとえば、短いドキュメントを考えてみましょう。
I saw the company's manager last day.
それから情報を抽出できるようにするには、追加データで注釈を付けてあいまいさを軽減する必要があります。このようなメタデータを見つけるプロセスは問題ではないため、手動で行われると想定します。問題は、これらのデータをさらに便利に/効率的に分析できるように、これらのデータをどのように保存するかです。
可能なアプローチはXMLタグを使用することです(以下を参照)が、冗長すぎるようで、テキストドキュメントにそのようなメタデータを保存するためのより良いアプローチ/ガイドラインがあるかもしれません。
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.