LDAによって生成されたトピックワードを使用してドキュメントを表す


8

各ドキュメントを一連の機能として表すことにより、ドキュメントの分類を行いたいと思います。私は多くの方法があることを知っています:BOW、TFIDF、...

Latent Dirichlet Allocation(LDA)を使用して、各単一ドキュメントのトピックキーワードを抽出したいと考えています。ドキュメントはこれらのトピックワードで表されます。しかし、私の意見では、LDAは通常、A BUNCH OFドキュメントによって共有されるトピックの単語を抽出するために使用されるため、それが妥当かどうかはわかりません。

LDAを使用して、単一のドキュメントのトピックを検出できますか?

回答:


13

LDAを使用して、単一のドキュメントのトピックを検出できますか?

はい、「トピック」の特定の表現で、(通常は関連する)ドキュメントのトレーニングコーパスが与えられます。

LDAはトピックを単語の分布として、ドキュメントをトピックの分布として表します。つまり、LDAの目的の1つは、各ドキュメントを一連のトピックとして確率論的に表現することです。たとえば、のLDA実装はgensim、特定のドキュメントのこの表現を返すことができます。

ただし、これはコーパス内の他のドキュメントに依存します。特定のドキュメントは、別のコーパスの一部として分析されると、別の表現になります。

これは通常、欠点とは見なされません。LDAのほとんどのアプリケーションは、関連ドキュメントに焦点を当てています。 LDAを導入するには、2つのコーパス、AP通信の記事の一つと科学論文の抄録のいずれかに適用されます。Edwin Chenの見事に親しみやすいブログ投稿は、サラペイリンがアラスカ州知事だった時代からの電子メールのトランシェにLDAを適用しています。

アプリケーションでドキュメントを既知の相互に排他的なクラスに分離する必要がある場合は、LDAから派生したトピックを分類の機能として使用できます。確かに、最初の論文はAPコーパスでまさにそれを行っており、良い結果が得られています。

関連して、Chenのデモンストレーションはドキュメントを排他的なクラスに分類しませんが、彼のドキュメントは主に確率を単一のLDAトピックに集中させます。David Bleiがこのビデオ講義で説明しているように、希薄性を優先するためにディリクレ事前分布を選択できます。より簡単に言えば、彼のスライドに書かれているように、「ドキュメントは多くのトピックを使用することで罰せられます」。これは、最も近いLDAが1つの監視されていないトピックに到達できるようですが、すべてのドキュメントがそのように表現されることを保証するものではありません。


返信ありがとうございます。一連のドキュメントではなく1つのドキュメントをLDAに入力して、出力された単語をドキュメントのトピックとして使用できますか?
Munichong 2014

「1つのドキュメントを入力する」とは、「1つのドキュメントで構成されるトレーニングセットを使用する」という意味ですか。または、「トレーニング済みモデルを使用して、サンプル外の単一のドキュメントからトピックを抽出する」ですか?
ショーンイースター

「1つのドキュメントで構成されるトレーニングセットを使用する」ことを意味し、ターゲットトピックの数を1に指定します。つまり、1つのトレーニングドキュメントから1つのトピック(単語のセット)を抽出します。
Munichong 2014

私は試したことがないので、実装がその入力をどのように処理するかを明確に確認できません。しかし、単一のドキュメントと単一のトピックを使用することは、モデルの特定の生成的な仮定を無視します。基本的に、ドキュメント内の各単語は単一の多項分布から抽出されたと想定します。そのパラメーターの事後は、ドキュメント内の単語の正規化された数より少し多いでしょう。このすべてが、これがどのようにして意味のある出力を生成できるかを理解するのに苦労しています。これは、1つのコーパスでtf-idfを計算するようなものです。統計は、より広いコーパスの特性に依存しています。
Seanイースター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.