要約に役立つ人工知能戦略は何ですか?


8

要約したい段落がある場合、たとえば:

ポンツォとフィラは日中にモールに行きました。彼らは長い間歩き、お店に立ち寄った。彼らは多くの店に行きました。最初は何も買わなかった。多くの店に行った後、最終的にシャツとズボンを購入しました。

次のように要約すると:

彼らは今日ショッピングモールで買い物をし、いくつかの服を買いました。

もしあれば、このプロセスを自動化するための最良のAI戦略は何ですか?ない場合、それはアルゴリズムを通知する外部情報リソースを最初に持っていることに依存しているためでしょうか?それとも、問題は本質的に文脈に依存しているからでしょうか?

回答:


6

次の投稿には少し数学があります。問題をよりよく説明するのに役立ちます。残念ながら、このSEサイトはLaTexをサポートしていません:

ドキュメントの要約は、AI研究において非常に未解決の問題です。このタスクが現在処理されている1つの方法は、「エクストラクティブ要約」と呼ばれます。基本的な戦略は次のとおりです。このドキュメントを文に分割し、記事の重要な詳細をすべて網羅する文のサブセットを要約として提示します。文、、変数割り当てます。ここで、は文が選択されたことを示し、は文がされたことを示します。次に、両方の文が選択された場合に限り、なります。また、文に対する各文重要性を定義します。1z{01}z=1z=0zzj=1wそして文と間の相互作用項wjj

しましょう バツ 文の特徴ベクトルになる w=wバツ この文(またはそれがカバーするトピック)を含めることがどれほど重要であるかをキャプチャします wj=wバツバツj要約内の文間の重複の量を示します。最後に、これらすべてを最小化問題に入れます。

最大化 zΣwzwjzzjst z=0 または 1

これは、カバーされる文の総重みを最大化しようとし、オーバーラップの量を最小化しようとします。これは、グラフで最小の重みの独立セットを見つけることに似た整数プログラミングの問題であり、そのような問題を解決するための多くの手法が存在します。

私の意見では、このデザインはテキスト要約の根本的な問題を捉えており、多くの方法で拡張できます。それらについて少し説明しますが、最初に機能を完全に指定する必要がありますww=wバツ 文のみの関数である可能性があります 、しかし、それはドキュメント内の文の場所またはそのコンテキストにも依存する可能性があります(段落の先頭にある文ですか?共通の単語をタイトルと共有していますか?長さはどれくらいですか?固有名詞について言及していますか?等)

wj=wバツバツjは類似性の尺度です。両方の単語を文に含めた場合の反復回数を測定します。文章間の一般的な単語を見ることで定義できます。また、各文からトピックまたは概念を抽出し、それらの間で共通する数を確認し、代名詞などの言語機能を使用して、1つの文が別の文に展開されるかどうかを確認することもできます。

設計を改善するために、最初に、キーフレーズ抽出を行うことができますつまり、テキスト内のキーフレーズを特定し、文章を選択するのではなく、それらの観点から上記の問題を定義することを選択します。これは、Googleが検索結果のニュース記事を要約するために行うのと同様の問題ですが、私は彼らのアプローチの詳細を知りません。また、文をさらに概念に分解して、文の意味の意味を確立しようとすることもできます(PonzoとFilaは人々P1とP2、モールは場所P、P1とP2は場所TにPに行きました(日)移動のモード徒歩...など)。これを行うには、セマンティックオントロジーまたは他の常識的な知識データベースを使用する必要があります。ただし、この最後の意味分類問題のすべての部分は公開されており、誰もがまだ満足のいく進歩を遂げているのを見ていません。

上記の損失関数を微調整して、文の重要度間のトレードオフを設定する代わりに、 w 多様性スコア wj手作業で、データからそれを学ぶことができました。これを行う1つの方法は、条件付きランダムフィールドを使用してデータをモデル化することですが、他にも多くの方法が存在します。

この回答が、良い要約システムに向けて前進するために解決する必要のある基本的な問題を説明したことを願っています。これは活発な研究分野であり、Google Scholarを介して最新の論文を見つけることができますが、最初にWikipediaのページを読んで関連用語を学習してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.