ガウス混合モデルは、成分分布がすべて正規である必要があるため、使用しません。あなたには数があるので、GMMは本質的に不適切です。
潜在的なディリクレ割り当て(完全な開示:トピックモデリングは本当に知りません)では、データが多項式である必要がありますが、その場合はカウントすることができます。それらは、変数のさまざまなカテゴリの発生のカウントになります。別の可能性は、いくつかのポアソン変数を持っている場合のように、カウントが異なる変数のカウントであることです。これは、データについてどのように考えているかについて、ちょっとしたオントロジーの質問です。
果物が欲しいので、食料品店に行く簡単な例を考えてみましょう。りんご、オレンジ、桃、バナナを一定数購入します。それらのそれぞれは、個別のポアソン変数と考えることができます。家に帰ったら、フルーツボウルに入れました。その後、間食をしたいときに、2つの果物(りんごと桃など)を見ずにつかんでボウルに手を伸ばすことがあります。これは、多項分布からの引き出しと考えることができます。どちらの場合も、カテゴリの数はありますが、考え方は異なります。最初のケースでは、食料品店に行く前に購入する果物がわかっていますが、各カテゴリで購入する数はさまざまです。2番目のケースでは、どの果物を選ぶかわかりませんが、可能なタイプから2つを取得しています。
データがフルーツボウルの例のようであれば、LDAが適している可能性があります。一方、食料品店の例のような場合は、ポアソン有限混合モデリングを試すことができます。つまり、ガウス/正規分布以外の混合モデリングを使用できます。GMMは最も一般的です。他の分布(ポアソンなど)はよりエキゾチックです。それらがソフトウェアにどれほど広く実装されているかはわかりません。あなたはRを使用する場合は、の発見につながったグーグル?PoisMixClusでHTSClusterのパッケージとrebmixのパッケージ(注私はどちらか使用していない、またはポアソン混合モデリングを行わなかっました)。他のソフトウェアの実装を見つけることも可能かもしれません。
いくつかの詳細を追加します。LDAは、少なくともGMMと同じくらいベイジアン手法です。
- LDAとGMMの最も重要な違いは、彼らがあなたが持っていると想定しているデータのタイプだと思います。
- それらは異なる種類のデータ用であるため、それらを比較することはできません。(LDAとポアソンMMは、カウントの概念が異なるため、実際に比較する必要はありません。)
私はあなたのデータをゼロ/非ゼロに二分しません。