段落内の日付に関連するイベントの特定


13

段落で指定された日付が、段落内の特定のイベント(フレーズ)に関連していることを識別するアルゴリズム的アプローチはありますか?

例として、次の段落を検討してください。

1970年6月、偉大な指導者が誓いを立てました。しかし、彼が国の手綱を引き継いだのは、国務大臣の死後の1972年5月以降でした。1980年半ばまで人気の支持を得ていた彼は、その後影響力を失い始めました。

2タプル(日付、イベント)を生成できるアルゴリズム(決定論的または確率的)がありますか?日付で発生したイベントは段落によって暗示されますか?上記の場合:

  • (1970年6月、偉大な指導者が誓いを立てた)
  • (1972年5月、手綱を引き継いだ)

    またはそれ以上

  • (1972年5月、偉大な指導者が手綱を引き継ぎました)
  • (1980年、影響力の低下)

#後期追加


2
この問題には、1)日付の抽出、2)イベントの抽出、3)両方のデータセットの関連付けという3つのフェーズが含まれているようです。1)確かに実行可能であり、3)の適切なヒューリスティックを想像できますが、2)を解決するにはどうすればよいですか?
ラファエル

1
@ラファエル私の質問の素敵な言い換え!
check123

まあ、やるあなたは2に関するいくつかの情報)、興味深い事象(すなわち言葉)の例えばA制限付きセットを持っていますか?日付がある限り、すべての名詞/動詞のペアを抽出しますか?
ラファエル

時間枠も抽出しますか?あなたの例では、(<= May 1972, death of the Minister of State)またはを検討してください(<= Mid-1980, [the great leader] enjoyed popular support)
ラファエル

@Raphael(非常に)遅い返信で申し訳ありません。2)に関して。いいえ。一般的なアプローチを試みています。
check123

回答:


4

一般に、テキスト内の日付やその他の時間マーカーを識別する問題は、時間参照抽出する問題と呼ばれます。リンクされた検索により、これに関連する論文が表示されます。


問題に名前があることを知りませんでした。それについてさらに調べて、価値のあるものを見つけることができるかどうかを確認します。:)
check123

2

あなたはアルゴリズムによるアプローチを求めているので、私はアルゴリズムと同じくらい頑固になります。この質問をこのように扱ってすみませんが、それは複雑な理論上の問題のようには見えないので、可能なアプローチを総合します。

質問:日付と特定のイベントのアルゴリズムの定義を教えてもらえますか?

可能な場合:定義はアルゴリズムであるため、これはおそらく何らかの形式的な文法であり、問​​題は、考慮する必要があるすべてのケースをキャッチするようにその文法を調整することです。(正式な文法ではない正確な定義を教えていただければ幸いです)

できない場合:少なくとも、例を考え出すことができます。じゃあ 最高の(そして私だけが考えることができる)アプローチは機械学習アルゴリズムであり、日付とイベントを認識するためにトレーニングする必要があります。(手で注釈を付けた文章のコーパスを使用)しかし、これはおそらく仕事をするであろういくつかの大きな手作りの正規表現と比較してかなり行き過ぎです。本当にやりたいのなら、最も効率的なのは学習アルゴリズムへのパラメータとして与えられるこの種の正規表現だと思いますが、機械学習の専門家に聞いたほうがいいでしょう。

幸運を祈ります。それについて話すだけの方がずっと簡単です(どちらの場合も)。


1
そうは言っても、日付とイベントを組み合わせるには、確かに確率モデルが必要だと思います。
ラファエル

正規表現を使用してキャプチャできるほとんどの形式の日付。いくつかのプログラミングロジックを使用して、日付の前後の文を抽出できます。問題は、特定の文のパターン、例:猫が8月25日にマウスを食べたときのモデルまたは確率分布が必要なことです。[<article> <noun> <verb> <article> <noun> <preposition> <date>]、パターンの(サブセット)セットが表示されます。猫はマウスを食べました(この例では)。 y(8月25日)と確率z。
check123

@jmad気にしない場合は、投稿の書式を調整できますか?引用符以外の引用符(または自己引用符)に引用スタイルを使用すると、かなり混乱します。
ウリ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.