ガウス混合の成分の最適数


10

したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか?


4
記事を引用してもらえますか、それとも提案されている方法論の概要を説明できますか?ベースラインがわからない場合、これを「より穏やかな」方法で行うのは
難しい

1
ジェフ・マクラクランなどは、混合分布に関する本を書いています。これらには混合物中の成分の数を決定するためのアプローチが含まれていると確信しています。おそらくそこを見ることができます。私がjbowmanに同意するのは、混乱を和らげることは、混乱していることを私たちに示した場合に最もよく達成されることです。
マイケルR.シェニック

話者識別のためのインクリメンタルk平均に基づくガウス混合の最適数の推定...そのタイトルは、無料でダウンロードできます。基本的には、2つのクラスターが相互に依存するようになるまで、クラスターの数を1ずつ増やします。ありがとうございました!
JEquihua

尤度の相互検証推定を最大化するコンポーネントの数を選択しないのはなぜですか?計算コストは​​高くなりますが、調整するパラメータが多数ない限り、モデル選択ではほとんどの場合、交差検証に勝るものはありません。
Dikran Marsupial

尤度の相互検証推定値について少し説明できますか?私はその概念を知りません。ありがとうございました。
JEquihua 2013

回答:


5

Dikran Marsupialのコメントの一部の拡張(相互検証)。主なアイデアは、データを何らかの方法でトレーニングセットと検証セットに分割し、異なる数のコンポーネントを試し、対応するトレーニングと検証の尤度値に基づいて最適なコンポーネントを選択することです。

GMMの尤度は、定義により。ここで、はコンポーネント(クラスター)の数で、。、はモデルパラメータです。の値を変更することにより、次のようなトレーニングセットと検証セットのGMM尤度をプロットできます。pバツ|πμΣ=ΣKπkNバツ|μkΣkKπμΣK

ここに画像の説明を入力してください

この例では、コンポーネントの最適な数が約20であることは明らかです。Courseraにこれに関する素晴らしいビデオがあり、そこから上の画像を取得しています。


別の一般的に使用される方法は、ベイズ情報量基準(BIC) : 尤度、Kパラメータの数でありデータポイント数。これは、対数尤度にパラメーター数のペナルティを追加することとして理解できます。

BC=2ログL+Kログ
L
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.