タグ付けされた質問 「text-summarization」

1
文書要約における対数尤度比
私は最初にこれをスタックオーバーフローで尋ね、このサイトを参照したので、ここに行きます: コンテンツ選択/抽出に基づくドキュメント要約の監視されていない方法を実装しています。私の教科書が「対数尤度比」と呼んでいるものに戸惑っています。Jurafsky&Martin 著の 『Speech and Language Processing』は、そのように簡単に説明しています。 一般にlambda(w)と呼ばれる単語のLLRは、両方のコーパスで等しい確率を想定して入力とバックグラウンドコーパスの両方でwを観測する確率と、異なる確率を想定して両方でwを観測する確率との比です入力と背景コーパスのw。 それを分解すると、分子は次のようになります。「入力と背景コーパスの両方で、両方のコーパスで等しい確率を想定してwを観測する確率」-ここで使用する確率を計算するにはどうすればよいですか? そして、分母:「入力と背景コーパスにおけるwの異なる確率を仮定して、両方でwを観測する確率」。-これは、入力に出現する単語の確率にコーパスに出現する単語の確率を掛けたものと同じくらい単純ですか?例: (count(word、input)/入力の合計単語数)*(count(word、corpus)/コーパスの合計単語数) 私の本が参照している論文「驚きと偶然の統計の正確な方法(1993年の督促)」を調べてきましたが、抽出ベースの要約で個々の単語のLLR値を計算する問題に関連するのが難しいと感じています。ここでの説明は本当にありがたいです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.