クラスター化にLDA over GMMを使用する場合


8

168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分(LDA)でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル(GMM)を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります:

  1. 2つの方法の主な違いは何ですか?私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか?

  2. 両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか?

更新

168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90%が間隔の値を達成する[0,3]

これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。


LDAでは、データがすべて多項カテゴリカル変数である必要はありませんが、GMMでは、データがすべて連続変数である必要があります。168のユーザーアクティビティ変数はどのようなデータですか?
ガン-モニカの回復

そうかもしれません。更新された元の投稿を参照してください。
ピル2015

回答:


4

ガウス混合モデルは、成分分布がすべて正規である必要があるため、使用しません。あなたには数があるので、GMMは本質的に不適切です。

潜在的なディリクレ割り当て(完全な開示:トピックモデリングは本当に知りません)では、データが多項式である必要がありますが、その場合はカウントすることができます。それらは、変数のさまざまなカテゴリの発生のカウントになります。別の可能性は、いくつかのポアソン変数を持っている場合のように、カウントが異なる変数のカウントであることです。これは、データについてどのように考えているかについて、ちょっとしたオントロジーの質問です。

果物が欲しいので、食料品店に行く簡単な例を考えてみましょう。りんご、オレンジ、桃、バナナを一定数購入します。それらのそれぞれは、個別のポアソン変数と考えることができます。家に帰ったら、フルーツボウルに入れました。その後、間食をしたいときに、2つの果物(りんごと桃など)を見ずにつかんでボウルに手を伸ばすことがあります。これは、多項分布からの引き出しと考えることができます。どちらの場合も、カテゴリの数はありますが、考え方は異なります。最初のケースでは、食料品店に行く前に購入する果物がわかっていますが、各カテゴリで購入する数はさまざまです。2番目のケースでは、どの果物を選ぶかわかりませんが、可能なタイプから2つを取得しています。

データがフルーツボウルの例のようであれば、LDAが適している可能性があります。一方、食料品店の例のような場合は、ポアソン有限混合モデリングを試すことができます。つまり、ガウス/正規分布以外の混合モデリングを使用できます。GMMは最も一般的です。他の分布(ポアソンなど)はよりエキゾチックです。それらがソフトウェアにどれほど広く実装されているかはわかりません。あなたはRを使用する場合は、の発見につながったグーグル?PoisMixClusHTSClusterのパッケージとrebmixのパッケージ(注私はどちらか使用していない、またはポアソン混合モデリングを行わなかっました)。他のソフトウェアの実装を見つけることも可能かもしれません。


いくつかの詳細を追加します。LDAは、少なくともGMMと同じくらいベイジアン手法です。

  1. LDAとGMMの最も重要な違いは、彼らがあなたが持っていると想定しているデータのタイプだと思います。
  2. それらは異なる種類のデータ用であるため、それらを比較することはできません。(LDAとポアソンMMは、カウントの概念が異なるため、実際に比較する必要はありません。)

私はあなたのデータをゼロ/非ゼロに二分しません。


これらの168のユーザーアクティビティ変数は1週間のカウントです。実際には、各ユーザーの数週間のデータがあります。カウントデータの平均を30週間以上取り、これをクラスタリングに使用した場合、違いはありますか?CLTについての私の理解に基づいて、平均に基づく変数は正規分布されるため、GMMの要件を支持します。
ピル

1
Nが大きい分布からの平均は、正常であるはずです。そうすれば、GMMを使用できると思います。
gung-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.