潜在的ディリクレ配分では、アルファおよびベータハイパーパラメーターは何に貢献しますか?


19

LDAには2つのハイパーパラメーターがあり、それらを調整すると、誘発されるトピックが変わります。

アルファおよびベータハイパーパラメーターはLDAにどのように貢献しますか?

いずれかのハイパーパラメーターが増減すると、トピックはどのように変わりますか?

なぜパラメーターだけでなくハイパーパラメーターなのですか?


ここで良い部分的な答えは次のとおりです。stats.stackexchange.com/a/37444/156252
緑がかった

回答:


16

ディリクレ分布は多変量分布です。我々は、フォームのサイズK〜のベクトルとしてディリクレのパラメータを表すことができるここで、はパラメーターのサイズのベクトルで、です。1Baバツa1aKバツ=1

現在、LDAは次のような構造を使用しています。

  • 文書には複数のトピックを含めることができます(この多様性のため、ディリクレ分布が必要です)。この関係をモデル化するディリクレ分布があります
  • 文書外で単語を検討する場合、単語は複数のトピックに属することもできます。ここで、これをモデル化する別のディリクレが必要です

前の2つは、実際にはデータからは見えない分布です。これが潜在または非表示と呼ばれる理由です。

ここで、ベイジアン推論では、ベイズ規則を使用して事後確率を推定します。簡単にするために、データあり、このデータのモデルがいくつかのパラメーターによって管理されているとします。このパラメーターの値を推測するために、完全なベイズ推論では、ここに注意してくださいが来ますバツθ

pθ|バツ=pバツ|θpθ|αpバツ|α事後確率=可能性×事前確率限界尤度
α。これは、この分布に関する最初の信念であり、以前の分布のパラメーターです。通常、これは共役事前分布を持つように選択され(したがって、事後分布は事前分布と同じです)、多くの場合、知識がある場合は何らかの知識をエンコードします。 。

事前のパラメーターはハイパーパラメーターと呼ばれます。そのため、LDAでは、ドキュメントとオーバーワードの両方のトピック分布にも対応する事前分布があり、通常はアルファとベータで示されます。事前分布のパラメーターはハイパーパラメーターと呼ばれるためです。

αkバツ

αk

αk

αk

さらに、priorsパラメーターの値は、パラメーターの値が1に近いため、分布の滑らかなpdfを生成することに注意してください。したがって、何かがあなたが知っている方法で、絶対値で1から遠い値が使用されます。そのような種類の知識がない場合は、1に近い値がこの知識不足をエンコードします。1がディリクレ分布でこのような役割を果たす理由は、分布自体の公式から簡単にわかります。

αkαk

お役に立てば幸いです。


texサポートについても同様です。:D
ルーベンス14年

11

対称ディリクレ分布(単純化のため)を想定すると、アルファ値が低いと、各ドキュメントが少数の主要なトピックのみで構成されることに重点が置かれます(一方、高い値はより多くの比較的主要なトピックを返します)。同様に、ベータ値が低いと、各トピックが少数の主要な単語のみで構成されることに重点が置かれます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.