文書からテキストの最も有益な部分を抽出する

16

現在のドキュメントに関するほとんどの情報を保持しているテキストの一部を抽出することに関する記事や議論はありますか。

たとえば、同じドメインからの大量のドキュメントがあります。単一のドキュメントが語っている重要な情報を保持するテキストの部分があります。それらの一部を抽出して、テキストの要約として使用したいと思います。このようなことを達成する方法に関する有用なドキュメントはありますか。

自然言語処理のこの分野で既に行われている可能性のある仕事の洞察を得るために、誰かが私が検索または読むべき正しい方向に私を向けることができれば、本当に役立ちます。

nlp text-mining

— マチックディバ
ソース

23

あなたが説明していることは、多くの場合、TF-IDFと抽出的要約の単純な組み合わせを使用して達成されます。

一言で言えば、TF-IDFは、コーパスの他の部分と比較して、各ドキュメント内の各単語の相対的な重要度を示します。この時点で、各ドキュメントの各単語について、その「重要度」に近いスコアが得られます。次に、これらの個々の単語スコアを使用して、各文の各単語のスコアを合計することにより、各文の複合スコアを計算できます。最後に、各ドキュメントの上位Nスコアリング文を要約として取得します。

今年の初めに、NLTKとScikit-learn：A Smattering of NLP in Pythonを使用してPythonでこの実装を行うiPython Notebookをまとめました。

— チャーリー・グリーンバッカー
ソース

2

はい、おそらくそれでしょう。いくつかの単語に重みを追加することもできますが、それは既に有益であることがわかっています。あなたの助けと有用なリンクをありがとう。

— MaticDiba 14

PDFでこれを使用できますか？:)

— アダム

はい、pdftotextのようなものを使用してPDFからプレーンテキストを既に抽出している場合、PDFのテキストでこれを使用できます。

— チャーリーグリーン

1

多くのキーワード抽出技術は、次のような要因に依存します。

テキストの文法品質
テキストの長さ
単一のキーワードまたはフレーズのキーワードなどを探しているかどうか

しかし、一般的に、長いテキストがあり、そこからキーワードを自動的に抽出したい場合は、次の記事を読むことをお勧めします。

TextRank
RAKE [高速自動キーワード抽出]
トピカ

また、上記の手法を使用しないカスタム（特殊）キーワードを抽出するには、以下の投稿をご覧ください。

PythonでNLTK POSタガーを使用してカスタムキーワードを抽出する

— アニディンヤ
ソース