LDAのような人気のあるトピックモデルは通常、同じトピック(クラスター)に共起する傾向がある単語をクラスター化します。
このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか?(PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。)
LDAのような人気のあるトピックモデルは通常、同じトピック(クラスター)に共起する傾向がある単語をクラスター化します。
このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか?(PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。)
回答:
最近、書かれたテキストから情報を抽出する方法を議論する膨大な文献が増えています。したがって、4つのマイルストーン/人気モデルとそれらの利点/欠点を説明し、主な違い(または少なくとも私が考える主な/最も重要な違い)を強調します。
「最も簡単な」アプローチに言及します。これは、ドキュメントを事前定義された用語のクエリ(PMIなど)と照合してクラスター化することです。ただし、これらの字句マッチング方法は、単一の用語の多義性(複数の意味)と同義語(類似した意味を持つ複数の単語)のために不正確になる場合があります。
救済策として、潜在セマンティックインデックス(LSI)は、特異値分解を介して用語とドキュメントを潜在セマンティック空間にマッピングすることにより、これを克服しようとします。LSIの結果は、個々の用語よりも強力な意味の指標です。しかし、LSIの欠点の1つは、確固たる確率論的基盤という点で欠けていることです。
これは、確率論的LSI(pLSI)の発明によって部分的に解決されました。pLSIモデルでは、ドキュメント内の各単語は、多項分布のランダム変数(@sviatoslav hongが述べたように高次の共起も可能にします)で指定された混合モデルから引き出されます。これは確率的テキストモデリングにおける重要な前進でしたが、ドキュメントレベルで確率的構造を提供しないという意味で不完全でした。
潜在ディリクレ割り当て(LDA)はこれを軽減し、テキストクラスタリングの最初の完全確率モデルでした。Blei等。(2003)pLSIは、一様なディリクレ事前分布の下での最大事後推定LDAモデルであることを示しています。
上記のモデル(LSI、pLSI、LDA)には、「単語の袋」の仮定に基づいているという共通点があることに注意してください。つまり、文書内では単語は交換可能、つまり文書内の単語の順序は無視される この交換可能性の仮定は、他のアプローチに対するLDAのさらなる正当化を提供します:文書内の単語が交換できるだけでなく、文書、つまりコーパス内の文書の順序も無視できると仮定すると、De Finettiの定理交換可能なランダム変数のセットには、混合分布としての表現があると述べています。したがって、ドキュメントとドキュメント内の単語の交換可能性が想定される場合、両方の混合モデルが必要です。まさにこれがLDAが一般に達成することですが、PMIまたはLSIはそうではありません(LDAほど美しくないpLSIでさえ)。
LDAは、用語の共起の高次をキャプチャできます(各トピックは用語の多項分布であるため)。これは用語間のPMIを計算するだけでは不可能です。