回答:
あなたが説明していることは、多くの場合、TF-IDFと抽出的要約の単純な組み合わせを使用して達成されます。
一言で言えば、TF-IDFは、コーパスの他の部分と比較して、各ドキュメント内の各単語の相対的な重要度を示します。この時点で、各ドキュメントの各単語について、その「重要度」に近いスコアが得られます。次に、これらの個々の単語スコアを使用して、各文の各単語のスコアを合計することにより、各文の複合スコアを計算できます。最後に、各ドキュメントの上位Nスコアリング文を要約として取得します。
今年の初めに、NLTKとScikit-learn:A Smattering of NLP in Pythonを使用してPythonでこの実装を行うiPython Notebookをまとめました。