ディープラーニングライブラリを使用したテキストからのキーワード/フレーズ抽出


20

おそらくこれは広すぎるかもしれませんが、テキスト要約タスクでディープラーニングを使用する方法に関するリファレンスを探しています。

標準の単語頻度アプローチと文のランク付けを使用してテキストの要約を既に実装していますが、このタスクにディープラーニングテクニックを使用する可能性を調査したいと思います。また、センチメント分析にConvolutional Neural Networks(CNN)を使用してwildml.comで提供されているいくつかの実装も行っています。テキストの要約とキーワード抽出にTensorFlowやTheanoなどのライブラリをどのように使用できるか知りたいのですが。ニューラルネットの実験を始めてから約1週間が経過しました。これらのライブラリのパフォーマンスが、この問題に対する以前のアプローチと比較してどうなるか、とても楽しみです。

これらのフレームワークを使用したテキスト要約に関連する興味深い論文とgithubプロジェクトを特に探しています。誰かが私にいくつかの参照を提供できますか?

回答:


15

Googleのリサーチブログの文脈で役立つはずTensorFlow

上記の記事には、注釈付きの英語Gigawordデータセットへの参照がありますテキストの要約に日常的に使用されるます。

Sutskever等による 2014年のニューラルネットワークによるシーケンスからシーケンスへの学習という論文は、短いテキストの場合、ディープラーニングテクニックを使用してエンドツーエンドで要約を学習できることがわかったため、あなたの旅の有意義な出発点となります。

最後に、ここで TensorFlowを利用しながら、テキスト要約を証明する素晴らしいGitHubのリポジトリがあります。


16

これは研究の開かれた領域であり、それは確かに問題を組み立てる方法に依存します。複数文書の要約について話している場合、問題は単一文書の要約について話している場合とは少し異なります。

文献を簡単に確認する価値があります。

u / Society Of Data Scientistsが提供するリンクは素晴らしく、1つのドキュメントにわたる抽象的要約タスクに役立ちます。抽出する重要な文を識別する抽出要約に関する作業もあります。

ラッシュ他 alは、注意を伴う抽象的要約に関する素晴らしい論文を持っています。ディープラーニングに基づくます。

抽出の要約のために、LSTMを使用して分類器を構築し、標準のTensorFlow / Torchライブラリを使用できますが、このアプローチのディープラーニングの使用に関する現在の出版物はないようです。

追加のGitHubリポジトリを次に示します。


ありがとう@franciscojavierarceo上記の論文を調べます。
shanky_thebearer 16

4

あなたがキーワードを探しているなら、このような音はより抽出的な要約です。以下に、おそらく実装されている論文をいくつか示します。

文と単語の抽出による神経要約

深層学習を使用した抽出要約

領域埋め込みによるテキスト分類のための半教師付き畳み込みニューラルネットワーク

また、SpaCy(提携していない)には、テキスト抽出タスクの一般的なアーキテクチャに関する優れたブログがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.