回答:
ディリクレ分布は多変量分布です。我々は、フォームのサイズK〜のベクトルとしてディリクレのパラメータを表すことができるここで、はパラメーターのサイズのベクトルで、です。
現在、LDAは次のような構造を使用しています。
前の2つは、実際にはデータからは見えない分布です。これが潜在または非表示と呼ばれる理由です。
ここで、ベイジアン推論では、ベイズ規則を使用して事後確率を推定します。簡単にするために、データあり、このデータのモデルがいくつかのパラメーターによって管理されているとします。このパラメーターの値を推測するために、完全なベイズ推論では、ここに注意してくださいが来ます
事前のパラメーターはハイパーパラメーターと呼ばれます。そのため、LDAでは、ドキュメントとオーバーワードの両方のトピック分布にも対応する事前分布があり、通常はアルファとベータで示されます。事前分布のパラメーターはハイパーパラメーターと呼ばれるためです。
さらに、priorsパラメーターの値は、パラメーターの値が1に近いため、分布の滑らかなpdfを生成することに注意してください。したがって、何かがあなたが知っている方法で、絶対値で1から遠い値が使用されます。そのような種類の知識がない場合は、1に近い値がこの知識不足をエンコードします。1がディリクレ分布でこのような役割を果たす理由は、分布自体の公式から簡単にわかります。
お役に立てば幸いです。