混合ガウスモデルを使用する理由


9

私は混合ガウスモデル(GMM)について学習していますが、なぜこのアルゴリズムを使用する必要があるのか​​について混乱しています。

  1. このアルゴリズムは、クラスタリングに関して、平均などの他の標準的なクラスタリングアルゴリズムよりもどのように優れていますか?手段は、パーティションにデータを、アルゴリズムガウス混合モデルは、各データポイントの明確なセットのメンバーシップを生成しないのに対し、明確なセットのメンバーシップとクラスター。GMMを使用して、あるデータポイントが別のデータポイントに近いと言う指標は何ですか?KKK

  2. GMMが生成する最終的な確率分布をどのように利用できますか?最終確率分布を取得するとします。ここで、は重みです。データ適合する確率分布を取得しました。どうすればよいですか?fバツ|wwバツ

  3. 以下のために、私の前の時点でフォローアップする手段、終了時に、我々は一連の取得我々は集合として表すことができるクラスター、であり、ものを。しかし、GMMのために、私は得るすべてが1つの配布であるである1つの事。これをKクラスターにクラスター化するためにどのように使用できますか?KK{S1SK}Kfバツ|w=Σ=1NwNバツ|μΣ1K


1
GMMには他の意味があり、特に計量経済学ではそうです。混乱を減らすために、タイトルから略語を削除しました。
Nick Cox

回答:


11

私の意見ではGMMを非常にうまく説明している(1)の表記を借ります。という特徴があるとします。の分布をモデル化するには、次の形式のGMMを当てはめることができます。バツRdバツ

fバツ=Σメートル=1Mαメートルφバツ;μメートル;Σメートル
との混合物中の成分の数、の混合物の重量番目の成分そして平均ガウス密度関数であるおよび共分散行列。EMアルゴリズム(K-Meansへの接続については、この回答で説明しています)を使用して、モデルパラメーターの推定値を取得できます。これは、ここでハット(。これで、GMMがに適合しました。使ってみましょう!Mαメートルメートルφバツ;μメートル;ΣメートルμメートルΣメートルα^メートルμ^メートルΣ^メートルバツ

これはあなたの質問1と3に対処します

GMMを使用して、あるデータポイントが別のデータポイントに近いと言う指標は何ですか?
[...]
これをKクラスターにクラスタリングするためにどのように使用できますか?

これで分布の確率モデルができたので、コンポーネントに属する特定のインスタンス事後確率を計算できます。これは、(生成)(2 )に対するコンポーネント「責任」と呼ばれることもあります。)、バツメートルメートルバツr^メートル

r^メートル=α^メートルφバツ;μメートル;ΣメートルΣk=1Mα^kφバツ;μk;Σk

これにより、さまざまなコンポーネントに属するの確率が得られます。これが、GMMを使用してデータをクラスター化する方法です。バツ

K-Meansは、Kの選択がデータにあまり適していない場合、または部分母集団の形状が異なる場合に問題が発生する可能性があります。scikit-学ぶドキュメントは、このような例は興味深い実例が含まれています

ここに画像の説明を入力してください

GMMの共分散行列の形状の選択は、コンポーネントがとることができる形状に影響します。ここでも、scikit-learnのドキュメントに図が示されています

ここに画像の説明を入力してください

不適切に選択されたクラスター/コンポーネントの数もEMに適合したGMMに影響を与える可能性がありますが、ベイジアン方式で適合したGMMはこれの影響に対していくらか弾力性があり、一部のコンポーネントの混合重みをゼロ(に近い)にすることができます。この詳細については、こちらをご覧ください

参考文献

(1)フリードマン、ジェローム、トレヴァーハスティー、ロバートティブシラニ。統計学習の要素。巻。1. No. 10. New York:Springer series in statistics、2001.
(2)Bishop、Christopher M.パターン認識と機械学習。スプリンガー、2006年。


7
  1. このアルゴリズムは、クラスタリングに関して、平均などの他の標準的なクラスタリングアルゴリズムよりもどのように優れていますか?K
  • k-meansは、同じサイズのほぼ球形のクラスターに適しています。これらの条件に違反すると失敗する可能性があります(クラスターが非常に広く分離されている場合でも機能する可能性があります)。GMMは、さまざまな形状とサイズのクラスターに適合できます。ただし、どちらのアルゴリズムも、曲線/非凸クラスターのデータには適していません。

  • GMMは、ポイントをクラスターに確率的に割り当てます。これにより、不確実性を定量化できます。たとえば、あるポイントが2つのクラスター間の「境界」に近い場合、それらのクラスターのメンバーシップ確率がほぼ等しいことを知っているほうが、最も近いクラスターに盲目的に割り当てるよりも、多くの場合良いでしょう。

  • GMMの確率論的定式化により、ベイジアン法を使用して事前知識を組み込むことができます。たとえば、クラスターの形状や位置、またはクラスターに含まれるポイントの数についてはすでに知っているかもしれません。

  • 確率論的定式化は、欠損データを処理する方法を提供します(たとえば、GMMのフィッティングに通常使用される期待値最大化アルゴリズムを使用)。一部の次元に沿ってその値を観察していなくても、データポイントをクラスター化できます。そして、これらの欠損値が何であったかを推測できます。

  1. ... K アルゴリズムがデータを分割することを意味します K明確なセットメンバーシップを持つクラスター。ガウス混合モデルは、各データポイントの明確なセットメンバーシップを生成しません。GMMを使用して、あるデータポイントが別のデータポイントに近いと言う指標は何ですか?

GMMは、各ポイントが各クラスターに属する確率を与えます(以下を参照)。これらの確率は、決定規則を使用して「ハード割り当て」に変換できます。たとえば、最も簡単な選択は、各ポイントを最も可能性の高いクラスター(メンバーシップ確率が最も高いクラスター)に割り当てることです。

  1. GMMが生成する最終的な確率分布をどのように利用できますか?最終確率分布を取得するとしますfバツ|w どこ w重みは何ですか?それで何ですか?データ適合する確率分布を取得しました。どうすればよいですか?バツ

ここにいくつかの可能性があります。あなたはできる:

  • クラスタリングを実行します(上記のように、ハード割り当てを含みます)。

  • (上記のように)欠損値を補完します。

  • 異常(つまり、確率密度の低いポイント)を検出します。

  • データの構造について学びます。

  • モデルからサンプリングして、新しい合成データポイントを生成します。

  1. 以下のために、私の前の時点でフォローアップする手段、終了時に、我々は一連の取得我々は集合として表すことができるクラスター、であり、ものを。しかし、GMMのために、私は得るすべてが1つの配布であるである事。これをクラスターにクラスター化するためにどのように使用できますか?KK{S1SK}Kfバツ|w=Σ=1NwNバツ|μΣ1K

あなたが書いた式は、観測されたデータの分布です。ただし、GMMは潜在変数モデルと考えることができます。各データポイントは、それが属するクラスターを示す潜在変数に関連付けられています。GMMをフィッティングすると、これらの潜在変数の分布がわかります。これにより、各データポイントが各クラスターのメンバーである確率が得られます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.