LDAハイパーパラメーターの自然な解釈


21

誰かがLDAハイパーパラメーターの自然な解釈を説明できますか?ALPHAおよびBETAは、それぞれ(文書ごと)トピックおよび(トピックごと)単語分布のディリクレ分布のパラメーターです。しかし、これらのハイパーパラメーターの大きな値と小さな値を選択することの意味を誰かが説明できますか?それは、文書内のトピックの疎さの観点から事前の信念を置き、単語の観点からトピックの相互排他性を置くことを意味しますか?

この質問は潜在的なディリクレ配分についてですが、すぐ下のBGReeneによるコメントは線形判別分析に言及しており、紛らわしいことにLDAと省略されています。


どのLDA製剤を使用しているかについて、もう少し詳しく説明する必要があると思います。一般に、これらのパラメーターを持つのはRDAモデルのみであり、LDAは通常、平均ベクトル、共分散行列、および事前確率によって完全に定義されます。
BGreene

回答:


11

David Bleiは、サマークラスの学生にLDAを紹介する素晴らしい講演をしています:http : //videolectures.net/mlss09uk_blei_tm/

最初のビデオでは、トピックモデリングの基本的な考え方と、ディリクレ分布がどのように作用するかを広範囲にカバーしています。プレート表記は、すべての隠された変数が依存関係を示すために観察されるかのように説明されます。基本的に、トピックとは単語の分布とドキュメントの分布です。

2番目のビデオでは、いくつかのサンプルグラフでアルファの効果を示しています。アルファが小さいほど、分布がまばらになります。また、彼はいくつかの推論アプローチを紹介します。


7
これは受け入れられた答えではないはずです
-samsamara

あなたが正しいと思います。これを書いたことを完全に忘れました。
カルステン

ああ!著者からのコメントを期待していませんでした!hehe :)
samsamara

48

答えは、対称ディリクレ分布と非対称ディリクレ分布のどちらを仮定しているか(より厳密には、ベースメジャーが均一かどうか)によって異なります。他に何かが指定されていない限り、LDAのほとんどの実装は、分布が対称であると想定しています。

対称分布の場合、アルファ値が高いということは、各ドキュメントにほとんどのトピックが混在している可能性が高く、特定のトピックだけが含まれている可能性が低いことを意味します。アルファ値が低いと、ドキュメントにかかる制約が少なくなり、ドキュメントにはトピックのほんの数個、または1つだけのトピックが混在する可能性が高くなります。同様に、ベータ値が高いということは、各トピックに具体的な単語ではなく、ほとんどの単語が混在している可能性が高いことを意味し、低い値はトピックに少数の単語が混在している可能性があることを意味します。

一方、分布が非対称である場合、アルファ値が高いということは、特定のトピック分布(ベースメジャーに応じて)がドキュメントごとに発生する可能性が高いことを意味します。同様に、高いベータ値は、各トピックに基本メジャーで定義された特定の単語の組み合わせが含まれている可能性が高いことを意味します。

実際には、アルファ値が高いと、含まれるトピックに関してドキュメントがより類似したものになります。同様に、ベータ値が高いと、トピックに含まれる単語がより類似したトピックになります。

そのため、はい、アルファパラメーターは、ドキュメント内のトピックのスパース性/均一性に関する事前の信念を指定します。「私はあなたが「言葉の観点からのトピックの相互排他性」によって何を意味するのか完全にはわかりません。


より一般的には、これらはLDAモデルで使用されるディリクレ分布の濃度パラメーターです。これがどのように機能するかを直感的に理解するために、このプレゼンテーションにはいくつかの素晴らしいイラストと、LDAの一般的な説明が含まれています。


私はあなたの元の質問にコメントできないので、ここに追加のコメントを付けます:私が見たものから、アルファパラメータとベータパラメータはいくつかの異なるパラメータ化をやや混乱させて参照することができます。基礎となるディリクレ分布は通常、ベクトルで化されますが、これは基本メジャーと濃度に分解できますパラメーター、その結果。alphaパラメーターがスカラーの場合、通常は濃度パラメーター意味しますが、の値も意味する場合があります(α1,α2,...,αK)u=(u1,u2,...,uK)ααu=(α1,α2,...,αK)αα 1α 2α K(α1,α2,...,αK)、これらは対称ディリクレ分布の下で等しいため。ベクトルの場合、通常はます。どのパラメーター化が最も一般的かはわかりませんが、私の返信では、濃度パラメーターとしてアルファ値とベータ値を意味すると思います。(α1,α2,...,αK)


2
+1有益な答え!一般的に、アルファとベータの高値/低値はどれくらい高い/低いかを尋ねたいですか?
-samsamara

ベータ版は、各トピックの単語(マトリックス)の分布になるはずですよね?では、単一の値がどのようにマトリックスに変換されるのでしょうか?
ノアミコ

アルファが高いということはドキュメントが似ていることを意味し、ベータが高いということはトピックが似ていることを意味すると結論付けるのは正しいでしょうか?
ルイストリック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.