Latent Dirichlet Allocation(LDA)を行う際に、ホールドアウトサンプルの困惑度を計算する方法について混乱しています。トピックに関する論文はそれ以上に簡単で、私は明らかな何かを見逃していると思うようにしています...
複雑さは、LDAのパフォーマンスの良い尺度と見なされます。アイデアは、ホールドアウトサンプルを保持し、残りのデータでLDAをトレーニングし、ホールドアウトの複雑さを計算することです。
困惑は次の式で与えられます。
(大規模画像データベースでの画像検索、Horster et alから引用)
ここで、 は(おそらくテストサンプルの)ドキュメントの数であり、はドキュメントの単語を表し、はドキュメントの単語の数をます。
を賢明に計算する方法は、保留されたドキュメントのトピック混合物がないため、私には明確ではありません。理想的には、可能なすべてのトピック混合物について事前にディリクレを介して統合し、学習したトピック多項式を使用します。ただし、この積分を計算するのは簡単なことではありません。
または、(学習したトピックが与えられた)各保留文書の最適なトピック混合を学習し、これを使用して困惑を計算することもできます。これは実行可能ですが、Horter et alやBlei et alなどの論文が示唆しているように些細なことではなく、結果が上記の理想的な場合と同等であることはすぐにはわかりません。