トピックモデルと単語の共起法


26

LDAのような人気のあるトピックモデルは通常、同じトピック(クラスター)に共起する傾向がある単語をクラスター化します。

このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか?(PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。)

回答:


32

最近、書かれたテキストから情報を抽出する方法を議論する膨大な文献が増えています。したがって、4つのマイルストーン/人気モデルとそれらの利点/欠点を説明し、主な違い(または少なくとも私が考える主な/最も重要な違い)を強調します。

「最も簡単な」アプローチに言及します。これは、ドキュメントを事前定義された用語のクエリ(PMIなど)と照合してクラスター化することです。ただし、これらの字句マッチング方法は、単一の用語の多義性(複数の意味)と同義語(類似した意味を持つ複数の単語)のために不正確になる場合があります。

救済策として、潜在セマンティックインデックス(LSI)は、特異値分解を介して用語とドキュメントを潜在セマンティック空間にマッピングすることにより、これを克服しようとします。LSIの結果は、個々の用語よりも強力な意味の指標です。しかし、LSIの欠点の1つは、確固たる確率論的基盤という点で欠けていることです。

これは、確率論的LSI(pLSI)の発明によって部分的に解決されました。pLSIモデルでは、ドキュメント内の各単語は、多項分布のランダム変数(@sviatoslav hongが述べたように高次の共起も可能にします)で指定された混合モデルから引き出されます。これは確率的テキストモデリングにおける重要な前進でしたが、ドキュメントレベルで確率的構造を提供しないという意味で不完全でした。

潜在ディリクレ割り当て(LDA)はこれを軽減し、テキストクラスタリングの最初の完全確率モデルでした。Blei等。(2003)pLSIは、一様なディリクレ事前分布の下での最大事後推定LDAモデルであることを示しています。

上記のモデル(LSI、pLSI、LDA)には、「単語の袋」の仮定に基づいているという共通点があることに注意してください。つまり、文書内では単語は交換可能、つまり文書内の単語の順序は無視される この交換可能性の仮定は、他のアプローチに対するLDAのさらなる正当化を提供します:文書内の単語が交換できるだけでなく、文書、つまりコーパス内の文書の順序も無視できると仮定すると、De Finettiの定理交換可能なランダム変数のセットには、混合分布としての表現があると述べています。したがって、ドキュメントとドキュメント内の単語の交換可能性が想定される場合、両方の混合モデルが必要です。まさにこれがLDAが一般に達成することですが、PMIまたはLSIはそうではありません(LDAほど美しくないpLSIでさえ)。


2
1/2ありがとう!非常に明確な。これが正しいかどうかを確認しましょう。LSIでは、ドキュメントは単語(トピックの概念なし)の混合によって形成され、単語とドキュメントはSVDを使用して低次元の意味空間にマッピングされます。類似した意味を持つ単語はより密接にマッピングされるため、同義語に対処できますが、ポリセミーに問題があります。pLSIは、トピックの概念を導入することにより、ポリセミーの問題を解決します。pLSIでは、単語は多項分布の単語(トピック)から引き出され、同じ単語は複数のトピックに属し、ドキュメントには複数のトピックがありますが、これは明示的にモデル化されていません。
kanzen_master

2
一般的には正しいと思います。いくつかの小さな修正:LSIは、多義性と同義語の両方で正常に機能すると見なされます。pLSIは基本的に、単なる線形代数ではなく、潜在クラス分析/混合モデルと確率のツールを使用して、LSIが目指すものを達成するための定式化です。pLSIと比較したLDAは、ドキュメントごとのトピック分布を指定することにより、完全に生成的なモデルです。
モモ

1
過剰適合と予測に関するあなたのポイントに関して、私は資格のある声明について十分な知識がありません。しかし、その価値はすべてありますが、LDAがpLSIよりも過剰適合しにくい理由はわかりません(LDAは基本的にpLSIモデルの前に追加するだけです)。どちらにも、オーバーフィットなどの組み込み補正はありません。LDAのような完全に生成的なモデルを使用すると、新しいドキュメントの「予測」が実際に簡単または実行可能になります。stats.stackexchange.com/ questions / 9315 /を参照してください。
モモ

1
再度、感謝します!最後の2つの質問だけです。(1)このPDFの多義性について、3ページの終わりに、ホフマンは同じ単語が異なる単語分布(トピック)に属することができるため、LSIと比較したPLSIの違いの1つは多義性であると述べています。それが、LSIが多義性で機能しないと思った理由です。(2)過適合については、このブログでは、パラメーターの線形増加は、モデルが過適合になりやすいことを示唆していると述べています。どう思いますか ?
kanzen_master

2
問題ない。あなたはすでにこれらのことについて多くを知っているので、私も何かを学びます。ad(1)まあ、いつものように、それは依存します:PCAで行われるように、用語の線形結合のためにLSIは多義性を処理できます。これは同義語ではより良くなりますが、多義性でもある程度です。基本的に類似した多義語は、類似した意味を共有する単語の追加コンポーネントです。ただし、単語が出現するたびに空間内の単一のポイントとして表されるため、pLSIよりもはるかに劣ります。したがって、単語表現は、コーパス内のすべての単語の異なる意味の平均です。
モモ

5

LDAは、用語の共起の高次をキャプチャできます(各トピックは用語の多項分布であるため)。これは用語間のPMIを計算するだけでは不可能です。


4
ありがとう!「共起の上位」の定義は何ですか?
kanzen_master

5

3年遅れかもしれませんが、「共起の上位」の例についての質問をフォローアップしたいと思います。

基本的に、タームt1がタームt3と共起するタームt2と共起する場合、タームt1はタームt3との2次共起です。必要に応じて上位に移動できますが、最後に2つの単語の類似度を制御します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.