LSAとpLSAの間の並列


9

pLSAの最初の論文では、著者のThomas Hoffmanが、pLSAとLSAのデータ構造の類似点を説明します。

バックグラウンド:

情報検索からインスピレーションを得て、ドキュメントのコレクション と用語の語彙N

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

コーパス で表すことができる cooccurencesのマトリックス。XN×M

潜在的意味AnalisysによってSVD行列 3つの行列に因数分解される: ここでと特異値でありますとのランクである。X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

次に、図に示すように、のLSA近似が計算され、3つの行列がいくつかのレベルに切り捨てられます。X = U Σ ^ V T K < SX

X^=U^Σ^VT^
k<s

ここに画像の説明を入力してください

PLSAでは、トピックの固定セットを選びだし(潜在変数)の近似値:として計算され ここで、3つの行列は、モデルの尤度を最大化する行列です。X X = [ P d i | z k] × [ d i a g P z k] × [ P f j | z k] TZ={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

実際の質問:

著者は、これらの関係は存続すると述べています。

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

LSAとpLSAの決定的な違いは、最適な分解/近似を決定するために利用される目的関数であること。

2つの行列異なる概念をと思うので、彼が正しいかどうかはわかりません。LSAでは、用語がドキュメントに出現する回数の概算であり、pLSAでは(推定)用語がドキュメントに現れる確率。X^

この点を明確にしていただけませんか。

さらに、LSAで新しいドキュメント与えられたコーパスで2つのモデルを計算したとします。LSAで近似を計算するために使用します。 d

d^=d×V×VT
  1. これは常に有効ですか?
  2. 同じ手順をpLSAに適用しても意味のある結果が得られないのはなぜですか?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

ありがとうございました。

回答:


12

簡単にするために、LSAと非負行列因数分解(NMF)の間の接続をここに示し、コスト関数の単純な変更がどのようにpLSAにつながるかを示します。前に述べたように、LSAとpLSAはどちらも、行と列の正規化まで、ドキュメントの用語行列の低ランクの分解という意味で因数分解法です。

X=UΣD

以前の表記を使用します。より簡単に言えば、ドキュメントの用語マトリックスは、2つのマトリックスの積として記述できます。

X=ABT

ここで、およびです。LSAの場合、前の式との対応は、および設定ことによって得られます 。AN×sBM×sA=UΣB=VΣ

LSAとNMFの違いを理解する簡単な方法は、幾何学的解釈を使用することです。

  • LSAは次の解です:

    minA,BXABTF2,
  • NMF-は次の解です: L2

    minA0,B0XABTF2,
  • NMF-KLはpLSAと同等で、次の解です:

    minA0,B0KL(X||ABT).

ここで、は、行列と間のカルバックライブラーダイバージェンスです。に正の数を乗算してを除算できるため、上記のすべての問題に一意の解決策がないことは簡単にわかります。 XYABApzk|diXBpfj|zkAApdi|zkKL(X||Y)=ijxijlogxijyijXYAB同じ目標値を得るために同じ番号で。したがって、LSAの場合、人々は通常、固有値の減少によってソートされた直交基底を選択します。これはSVD分解によって与えられ、LSAソリューションを識別しますが、ほとんどの操作(コサイン類似度、上記の平滑化式など)に影響を与えないため、他の選択も可能です。-NMFの場合、直交分解は不可能ですが、の行は、として直接確率的に解釈されるため、通常、合計が1になるように制約されます。さらに、の行が正規化されている(つまり、合計が1である)場合、の行を合計して1にする必要があり、確率論的解釈につながります。Ap(zk|di)XBp(fj|zk)。の列が1に合計されるように制約されているため、の値はになるため、上記の質問で与えられたpLSAのバージョンとわずかな違いがありますが、違いはパラメーター化の変更のみです。 、問題は同じままです。AAp(di|zk)

ここで、最初の質問に答えるために、LSAとpLSA(およびその他のNMFアルゴリズム)の違いには微妙な点があります。非負性制約は、「クラスタリング効果」を引き起こします。これは、特異値のため、古典的なLSAケースでは無効です。分解解は回転に不変です。非負性制約は、この回転不変性を何らかの形で破り、何らかの意味論的意味を持つ要因(テキスト分析のトピック)を提供します。それを説明する最初の論文は:

Donoho、David L.、Victoria C. Stodden。「非負の行列因数分解はいつ部分に正しく分解するのですか?」神経情報処理システムの進歩16:2003年会議の議事録。MIT Press、2004。[リンク]

それ以外の場合、PLSAとNMFの関係は次のとおりです。

丁、クリス、タオリー、ウェイペン。「非負行列因数分解と確率的潜在的意味索引付けの間の同等性について。」計算統計とデータ分析52.8(2008):3913-3927。[リンク]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.