LDAを使用して、単一のドキュメントのトピックを検出できますか?
はい、「トピック」の特定の表現で、(通常は関連する)ドキュメントのトレーニングコーパスが与えられます。
LDAはトピックを単語の分布として、ドキュメントをトピックの分布として表します。つまり、LDAの目的の1つは、各ドキュメントを一連のトピックとして確率論的に表現することです。たとえば、のLDA実装はgensim
、特定のドキュメントのこの表現を返すことができます。
ただし、これはコーパス内の他のドキュメントに依存します。特定のドキュメントは、別のコーパスの一部として分析されると、別の表現になります。
これは通常、欠点とは見なされません。LDAのほとんどのアプリケーションは、関連ドキュメントに焦点を当てています。紙 LDAを導入するには、2つのコーパス、AP通信の記事の一つと科学論文の抄録のいずれかに適用されます。Edwin Chenの見事に親しみやすいブログ投稿は、サラペイリンがアラスカ州知事だった時代からの電子メールのトランシェにLDAを適用しています。
アプリケーションでドキュメントを既知の相互に排他的なクラスに分離する必要がある場合は、LDAから派生したトピックを分類の機能として使用できます。確かに、最初の論文はAPコーパスでまさにそれを行っており、良い結果が得られています。
関連して、Chenのデモンストレーションはドキュメントを排他的なクラスに分類しませんが、彼のドキュメントは主に確率を単一のLDAトピックに集中させます。David Bleiがこのビデオ講義で説明しているように、希薄性を優先するためにディリクレ事前分布を選択できます。より簡単に言えば、彼のスライドに書かれているように、「ドキュメントは多くのトピックを使用することで罰せられます」。これは、最も近いLDAが1つの監視されていないトピックに到達できるようですが、すべてのドキュメントがそのように表現されることを保証するものではありません。