文書要約における対数尤度比


9

私は最初にこれをスタックオーバーフローで尋ね、このサイトを参照したので、ここに行きます:

コンテンツ選択/抽出に基づくドキュメント要約の監視されていない方法を実装しています。私の教科書が「対数尤度比」と呼んでいるものに戸惑っています。Jurafsky&Martin 著の 『Speech and Language Processing』は、そのように簡単に説明しています。

一般にlambda(w)と呼ばれる単語のLLRは、両方のコーパスで等しい確率を想定して入力とバックグラウンドコーパスの両方でwを観測する確率と、異なる確率を想定して両方でwを観測する確率との比です入力と背景コーパスのw。

それを分解すると、分子は次のようになります。「入力と背景コーパスの両方で、両方のコーパスで等しい確率を想定してwを観測する確率」-ここで使用する確率を計算するにはどうすればよいですか?

そして、分母:「入力と背景コーパスにおけるwの異なる確率を仮定して、両方でwを観測する確率」。-これは、入力に出現する単語の確率にコーパスに出現する単語の確率を掛けたものと同じくらい単純ですか?例:

(count(word、input)/入力の合計単語数)*(count(word、corpus)/コーパスの合計単語数)

私の本が参照している論文「驚きと偶然の統計の正確な方法(1993年の督促)」を調べてきましたが、抽出ベースの要約で個々の単語のLLR値を計算する問題に関連するのが難しいと感じています。ここでの説明は本当にありがたいです。


1
教科書は何ですか?
ワンストップ

Jurafsky&Martinによる音声および言語処理
Richard

回答:


1

私の限られた知識で、私は思います:

  1. 「入力でwを観測する確率」は、値を計算するために分布を必要とします
  2. 「入力コーパスとバックグラウンドコーパスの両方で、両方のコーパスで等しい確率を想定してwを観測する確率」は、「wの確率が両方のコーパスで等しい場合、wを観測する可能性」を意味します。

これが私の処方です:


問題を少し定式化する:

  1. 仮説1: P(入力のw)= P(背景のw)= p
  2. 仮説2: P(w in input)= p1 and P(w in background)= p2 and p1 p2

重要な部分は、ここでディストリビューションを想定する必要があることです。簡単に言うと、テキストでwを生成するための二項分布を想定しています。サンプルデータが与えられると、最尤推定を使用してp、p1、およびp2の値を計算できます。

  1. p =(入力のカウント数+背景のカウント数)/(入力サイズ+背景サイズ)=(c1 + c2)/(N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

どの仮説がより可能性が高いかを知りたい。したがって、各仮説の尤度を計算し、互いに比較します(これは基本的に尤度比が行うことです)。

二項分布を仮定しているので、c1とc2が存在する可能性を計算できます。

仮説1の場合:

L(c1)=入力でwを観測する確率=確率p(つまり、N1回からc1回のwを選択する)がb(N1、c1 、p)- ここで二項確率式を参照してください

L(c2)=バックグラウンドでwを観測する確率=確率pがb(N2、c2、p)であると仮定して、N2ワードがある場合にc2を達成する可能性

仮説2では、代わりにp1とp2を使用できます。

ここで、どの仮説がより可能性が高いかを知りたいです。各仮説からの出力値を比較する方法がいくつか必要になります。

しかし、各仮説には2つの値、L(c1)とL(c2)があります。どの仮説がより可能性が高いかをどのように比較できますか?---単一値の出力を実現するために、それらを乗算することを選択します。(それはジオメトリに類似しているため、私は推測します)


あなたのアイテムでは、p、p1、p2はp、p1、p2の推定値ですよね?
西安

それは正解です。統計的に言えば、サンプルデータと二項分布が与えられた場合の最尤推定値です。
タニン、

指摘してくれてありがとう。答えを改善しました。
Tanin、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.