クラスター化にLDA over GMMを使用する場合
168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分(LDA)でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル(GMM)を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります: 2つの方法の主な違いは何ですか?私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか? 両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか? 更新 168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90%が間隔の値を達成する。[0,3][0,3][0,3] これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。