クラスタリングのディリクレプロセス:ラベルの扱い方


14

Q: Dirichletプロセスを使用してデータをクラスタリングする標準的な方法は何ですか?

Gibbsサンプリングを使用すると、サンプリング中にクラスターが表示され、消えます。また、事後分布はクラスターの再ラベル付けに対して不変であるため、識別可能性の問題があります。したがって、どちらがユーザーのクラスターであるかを言うことはできませんが、2人のユーザーが同じクラスターに属していると言えます(つまり、pc=cj)。

クラスの割り当てを要約して、がポイントiのクラスター割り当てである場合、c i = c jだけでなくc i = c j = c j =になるようにできます。= c zcc=cjc=cj=cj==cz

これらは私が見つけた選択肢であり、それらが不完全または見当違いだと思う理由です。

(1)DP-GMM + Gibbsサンプリング+ペアベースの混同行列

クラスタリングにディリクレプロセスガウス混合モデル(DP-GMM)を使用するために、著者がギブスサンプリングを使用した密度推定のためのDP-GMMを提案するこの論文を実装しました。

クラスタリングのパフォーマンスを調査するために、彼らは次のように述べています。

コンポーネントの数は[MCMC]チェーンで変化するため、チェーン全体で同じコンポーネントに割り当てられる各データペアの頻度を示す混同マトリックスを作成する必要があります。図6を参照してください。 ここに画像の説明を入力してください

短所:これは実際の「完全な」クラスタリングではなく、ペアワイズクラスタリングです。実際のクラスターを知っており、それに応じてマトリックスを配置しているため、この図は見栄えがします。

(2)DP-GMM + Gibbsサンプリング+何も変化しないサンプル

私は検索してきましたが、ギブスサンプラーを使用してディリクレプロセスに基づいてクラスタリングを行うと主張する人がいます。たとえば、この投稿では、クラスターの数または平均のいずれにも変化がなくなったときにチェーンが収束し、そこから要約を取得すると考えています。

短所:私が間違っていなければ、これが許可されているかどうかわかりません:

  • (a)MCMC中にラベルが切り替えられる場合があります。

  • (b)定常分布であっても、サンプラーは時々クラスターを作成できます。

(3)DP-GMM + Gibbsサンプリング+最も可能性の高いパーティションのサンプルを選択

この論文では、著者は次のように述べています。

「バーンイン」期間の後、IGMMの事後分布からの偏りのないサンプルをギブスサンプラーから引き出すことができます。ハードクラスタリングは、このようなサンプルを多数描画し、クラスインジケーター変数の結合尤度が最も高いサンプルを使用することで見つけることができます。M. Mandelによって作成さた修正IGMM実装を使用します。

短所:これが割り当てをサンプリングするだけのCollapsed Gibbs Samplerでない限り、計算できますが、周辺のp cは計算できません。(代わりに、最高のp cθ )を持つ状態を取得することをお勧めしますか?)pc|θpcpcθ

(4)Variatonal Inferenceを使用したDP-GMM

一部のライブラリでは変分推論が使用されていることがわかりました。変分推論はあまり知りませんが、そこに識別可能性の問題はないと思います。ただし、MCMCメソッドに固執したい(可能な場合)。

参照があれば参考になります。


pc

pc

それは設計によるものです。実際、MCMCを超えています。これは、ベイジアンモデルの組み込み機能です。どちらかといえば、何か不自然なことをしようとしているために問題に直面しています。私たちがやることに
取りwithかれ

そもそもこのようなことをしたくない理由があります-Dirichletプロセス混合モデルがクラスターの数を一貫して推定できないというさまざまな意味があります(したがって、「データの真」クラスタリング)。このトピックに関する最近の論文がNIPSにありました。

1
こちらをご覧ください。その代わりに、コンポーネントの数よりもポアソンを優先することを提案する(そして、それを実装するためのレストランのプロセスを派生させる)ことを提案すると思いますが、これが彼らがそれを行う論文かどうかはわかりません。

回答:


1

cpcθpcθpc|θ

この答えが「暫定的」だと言う理由は、値を「パラメータ」として指定するのが意味論の問題なのか、PhD保有ユーザーの1人よりも技術的/理論的な定義があるのか​​わからないからですここで解明することができるでしょう。


pcθ=pc|θpθpc

再び@alberto、これはこのモデルとベイジアン統計とは関係ありません。ここを参照してください:groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gsを。複数のモードが心配な場合は、ここを参照してください:groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yMおよびこちら:stats.stackexchange.com/q/3328/36229
shadowtalker

1

この質問に答えるのに役立てることを期待して、トピックに関するリソースを共有したかっただけです。Dirichletプロセス(DP)に関する多くのチュートリアルがあり、クラスタリング用のDPの使用に関するチュートリアルもあります。彼らは次のように、「優しい」から及ぶこのプレゼンテーションのチュートリアルのような、より高度に、このプレゼンテーションのチュートリアル。後者は同じチュートリアルの更新版で、MLSS'07でYee Whye Tehによって提示されました。ここで、同期されたスライドでその講演のビデオを見ることができます。ビデオについては、Tom Griffithのスライドを使用した興味深い興味深い講演をこちらでご覧いただけます。紙形式のチュートリアルに関しては、このチュートリアル 素敵でかなり人気のあるものです。

最後に、関連するいくつかの論文を共有したいと思います。階層型DPに関するこの論文は重要で関連があるようです。Radford Nealによるこの論文にも同じことが当てはまります。トピックモデリングに興味がある場合は、潜在ディリクレ割り当て(LDA)もレーダーにある可能性が高いでしょう。その場合、このごく最近の論文は、斬新で大幅に改善されたLDAアプローチを提示しています。トピックモデリングドメインに関しては、David Bleiと彼の協力者による研究論文を読むことをお勧めします。この論文は入門であり、残りは彼の研究出版物のページで見つけることができます。私がお勧めした資料のいくつかはあなたにとって基本的すぎるかもしれないことを理解していますが、私がトピックで出くわしたすべてのものを含めることで、あなたが答えを見つける機会を増やすと思いました。


ここであなたがやろうとしていることは理解していますが、それは本当に問題に対処していません。
シャドウトーカー

1
@ssdecontrol:私がここでやろうとしていることを理解している場合(OPが答えを見つけて、1つまたは2つのことを学ぶのを助けている)、あなたのコメントのポイントは何ですか?私は私の答えであることを主張したことがありません答えは、それがあることへの期待を表明します役立つしました。あなたがより良い答えを持っている場合、私はそれがOPとコミュニティによって高く評価されると確信しています。
アレクサンドルブレフ

1
うん、私は完全に理解しています。これも私がここでやっていることの多くです。しかし、質問はMCMCの結果からクラスターラベルを選択する正しい方法について尋ねているので、これがその質問にまったく対処していないと思います。
シャドウトーカー

@AleksandrBlekh ssdecontrolには、OPが「基本」を知っているようで、特定の質問をするため、少し話題から外れていることに同意します。
ティム

1
@AleksandrBlekhあなたの投稿に感謝します。少なくとも、DPを紹介するための良い要約になります。基本(中級レベル、例えば)を知っていますが、少なくともあなたの参考文献はLDAに戻り、ラベルが頻繁に切り替わらないので、それらが問題についてつま先立ちであることに気付きました。
アルベルト
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.