クラスター解を評価するための2つのガウス混合の間の距離


11

さまざまなクラスタリング手法を比較するためのクイックシミュレーションを実行していますが、現在、クラスタソリューションを評価しようとする障害にぶつかっています。

私はさまざまな検証メトリックスを知っています(Rのcluster.stats()に多くあります)が、クラスターの推定数が実際のクラスターの実際の数と等しい場合、それらが最もよく使用されると思います。元のシミュレーションでクラスターの正しい数が指定されていない場合に、クラスターソリューションのパフォーマンスを測定する機能を維持したい(つまり、4クラスターを持つようにシミュレーションされた3つのクラスターソリューションモデルデータがどれだけうまく機能するか)解決)。参考までに、クラスタは同じ共分散行列を持つようにシミュレーションされます。

ガウス分布の2つの混合物間のKLダイバージェンスは実装に役立つと思いましたが、閉形式のソリューションは存在せず(Hershey and Olson(2007))、モンテカルロシミュレーションの実装は計算コストがかかり始めています。

(たとえ近似であっても)実装が簡単な他の解決策はありますか?


2つのガウス混合の間のL2距離は、閉じた形式で利用できます。これを使用すると、すべての準備が整います。

どうすればいいのかわかりませんが、私には良い考えではないようです。混合物を取り、コンポーネントを並べ替え(p(x)への変更なし)、L2距離は何でもかまいません。また、L2距離は共分散行列では適切ではありません。
bayerj 2014年

保留されたテストデータセットの事後予測確率。私はあなたがkの事前知識が必要だと思う。
2015年

最初のリンクが壊れている
ttnphns '06 / 06/30

回答:


6

Rd 2つのガウス混合があると仮定します。 それらの密度をそれぞれとと呼び、それらのコンポーネントの密度、を、。

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

次の距離は閉じた形式で使用できます。

  • L2によるコメントで提案されている距離。これは: のセクション8.1.8の例に見られるように、ことに注意マトリックス料理: なので、時間で簡単に評価できます。

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • ガウスRBFカーネルでの最大平均不一致(MMD)。これはクールな距離ですが、統計コミュニティの間ではまだあまり知られていません。これを定義するには少し計算が必要です。

    まかせ ヒルベルト空間定義などを対応する再生カーネルヒルベルト空間:。

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    平均マップカーネルをとして 定義します

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMDは、次に

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    と混合では、 あり、とでも同様です。PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    と同様のトリックを使用して、は であることがL2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    同様に、の倍数に明確にこの収束距離。ただし、通常はデータバリエーションの規模に応じて、別のを使用する必要があります。σ0L2σ

    閉じた形式は、MMDの多項式カーネルにも使用できます。見るk

    Muandet、Fukumizu、Dinuzzo、およびSchölkopf(2012)。サポートメジャーマシンによる分布からの学習。事前の神経情報処理システム(公式版)。arXiv:1202.6504

    この距離の多くの優れた特性については、

    Sriperumbudur、Gretton、Fukumizu、Schölkopf、およびLanckriet(2010)。ヒルベルト空間の埋め込みと確率測度に関する指標。Journal of Machine Learning Research、11、1517〜1561arXiv:0907.5309

  • 二次Jensen-Rényi発散。Rényi-エントロピーはとして定義され としてのその限界は、シャノンエントロピーです。Jensen-Rényiダイバージェンスは ここで、は、と等しい混合を示します。これは場合、ことが判明とするとき及び(ここでのように)、ガウス混合物である、あなたがのために閉形式計算することができる。これはα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang、Syeda-Mahmood、Vemuri、Beymer、およびRangarajan(2009)。ガウス混合の閉形式Jensen-Renyi発散とグループ単位の形状登録への応用。Med Image Comput Comput Assist Interv。、12(1)、648–655。(無料公開バージョン


0

クラスターが実際にガウス混合ではなく、任意の形状である場合、より多くのクラスターを作成し、その後いくつかを再度マージすると、実際の結果ははるかに良くなる可能性があります。

多くの場合、任意に高いkを選択するだけです。たとえば、大きなデータセットの場合は1000です。特に、モデルにあまり興味がなく、ベクトル量子化を介してデータセットの複雑さを軽減したい場合。


ガウス混合から描画されるクラスターをシミュレートしたので、私の仮定は妥当だと思います。ここでの目標は、複雑さを軽減したり、kを選択するための決定基準を考えたりすることではなく、kが実際に正しくない場合に、kクラスターがデータをどれだけうまくモデル化するかを比較することです。一部の誤った選択は他のデータよりもデータをより適切にモデル化する可​​能性があり、私はいくつかの計算でこの程度の不適合を定量化しようとしています(KLダイバージェンスのようですが、ガウス混合の実装が簡単です)。
dmartin 2013年

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.