これは、言語学分野におけるNLG研究の方向性に関するこの質問のフォローアップのようなものです。
Siri、Google Now、Cortanaなどのパーソナルアシスタントツールはどのように自然言語生成(NLG)を実行しますか?具体的には、文章テキスト生成部。私は、テキストを音声に変換する部分ではなく、テキスト生成部分だけに関心があります。
その情報がおそらく入手できないので、私はそれぞれがそれをどのように行うか正確に探していません。
その品質の文生成を実装するにはどのような設定が必要なのでしょうか。
- データベースにはどのようなデータが必要ですか(高レベル)?
- 可能なすべての単語とその意味の辞書に加えて、注釈が付けられ、統計的に分析された多くの本/コーパスに辞書を追加する必要がありますか?
- それは実際に人々が自然な方法で話した(テレビ番組やポッドキャストなどから)録音をしてテキストに変換し、それを何らかの形で "システム"に追加することを必要としますか?(本当に「人間」のような文章を得るために)
- あるいは、彼らが使用している単純な構文ベースの文パターンだけがあり、巨大な意味論的「意味」データベースがないのですか?誰かが正規表現タイプのものをたくさん書いたところ。
- そのような自然に書かれた人間のような文章に使用されるアルゴリズムは何ですか?
質問する理由の1つは、NLG分野がSiriやGoogle Nowなどが成し遂げていることを実行することは非常に遠いようだということです。では、彼らはどんなことをしているのでしょうか?(ちょうど文のテキスト生成部分)。