正規分布の有限混合からサンプルを引きますか?


10

Pr(θ|data)=i=1kwiN(μi,σ2).
θθPr(θ|data)ii{wi}θN(μi,σ2)。このフォームの後方からサンプルを描画する効率的な方法はありますか?

実際にselect then throwメソッドを試しましたか?選択は、O(k)ステップのかなり早い段階で行うことができます。
dmckee ---元モデレーターの子猫2012

1
バロンの解が本当に正しくなく、実際に「混合モデル」を意味している場合、その用語を使用していただけませんか?
Neil G

1
Neil G:私は貿易統計学者ではなく、統計学を利用する必要がある物理学者です。そのため、必要なものを説明する適切な用語がわかりませんでした。次に、質問を編集して、RVではなくPDFが合計されていることをより明確にすることができます。
Chris

1
@ChrisGranade:私はあなたに降りてくるつもりはありませんでした。私はそれがあなたの意味することを確認し、編集を提案したかっただけです。
Neil G

1
重みと一様分布からのサンプルに基づいてを選択し、次にサンプリングすることが実際的でないのはなぜですか?これは、単一の正規分布をサンプリングするよりもやや高価ですが、コストは混合分布数に依存せず、それらの分布が正規であることには依存しません。i{wi}[0,1]N(μi,σ2)k
Jed Brown

回答:


6

原則として、各サブ分布から抽出するサンプルの数を事前に選択し、各サブ分布を1回だけ訪問して、ポイント数よりも多くを抽出することができます。

あれは

  1. ランダムなセットを見つけるようにと重みを尊重。<n1,n2,,nk>n=i=1kni

    これは、ポアソン分布を各部分分布の平均多項分布(コメントを参照)で描画し、その合計を正規化することで実現すると思います。winn

    ここでの作業はO(k)O(n)

  2. それから

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    ここでの作業はO(n)

ただし、これはをランダムな順序で取得しないことを意味します。ランダムな順序が必要な場合は、ドローをシャッフルする必要があります(これも大きな)。O(n)

実行時に最初のステップが優勢であり、ナイーブアルゴリズムと同じ順序であるように見えますが、すべてのが正規分布であると確信できる場合は、ポアソン分布を正規分布で近似し、最初のステップを高速化できます。win1


が固定されている場合、の分布はポアソン分布ではなく、二項分布です。nin
フレデリック・Grosshans

@FrédéricGrosshansUhm ...ここで私は確率で私の悲惨な弱点を認めています。あなたが正しいかもしれないと思います。任意の二項分布をスローするためのリンクはありませんが、ウィキペディアにはいくつかの参照があります。ポアソンと二項分布の間にも関係があり、これが私の不確実性の原因であると私が主張するつもりです。ええ、それはチケットです。
dmckee ---元モデレーターの子猫2012

1
@dmckee:ステップ1のポアソン分布ではなく多項分布である必要があることを除いて、混合モデルから描画するための良い回答
Neil G

3

注:この質問の元のバージョンは、「正規分布の加重和」について尋ねましたが、これには次の回答が役立つ場合があります。ただし、この回答、@ Geoffの回答、および質問自体について十分に議論した後、この回答が適用されない「正規分布の混合」のサンプリングに関する質問であることが明らかになりました。


正規分布の合計は正規分布であるため、この単一の分布のパラメーターを計算し、そこからサンプルを簡単に抽出できます。その分布をと呼ぶと、N(μsum,σsum2)

μsum=i=1kwiμi

σsum2=i=1kwi2σi2

3
簡潔に言うと、Chrisは確率変数ではなく確率密度関数を合計しています。
Geoff Oxberry 2012年

2
Chrisは、(少なくとも原則として)複数のバンプがあるPDFを求めています。つまり、彼はPDFの合計であり、合計のPDFではありませんでした。
dmckee ---元モデレーターの子猫2012

1
正規分布確率変数の合計自体が正規分布確率変数であることは事実です。ただし、正規分布の合計は正規分布ではありません。したがって、および場合、それは事実である、しかし。(クレジットは説明のために@ChrisGranadeに行きます。)X1N(μ1,σ12)X2N(μ2,σ22)X1+X2N(μ1+μ2,σ12+σ22)PDF(X1+X2)PDF(X1)+PDF(X2)
Geoff Oxberry '27 / 01/12

2
@dmckee:これは「正規分布の加重和」ではなく、「正規分布の混合」です。
Neil G

2
@Barronのコメントは、ページの重要な部分とは見なされません。回答を必ず編集して、コメントの要点を含め、コメントを見ない読者が誤解されないようにする必要があります。
David Ketcheson、2012年

2

更新:この回答は正しくありません。用語の混乱が原因です(詳細については、以下のコメントチェーンを参照してください)。(バロンを除いて)人々がこの回答を再投稿しないように、私はそれを指針として残しているだけです。それを上下に投票しないでください。

ランダム変数のプロパティを使用して、それを単一の正規分布ランダム変数に減らします。2つの独立した正規分布ランダム変数合計は、それ自体がランダム変数なので、および、次にX1N(μ1,σ12)X2N(μ2,σ22)

X1+X2N(μ1+μ2,σ12+σ22).

また、場合、w1R

w1X1N(w1μ1,w12σ12).

これら2つの結果を組み合わせて使用​​すると、

Pr(θ|data)N(i=1kwiμi,i=1kwi2σi2).

したがって、この場合は、単一の分布からサンプルをプルするだけで済みます。


2
これは、元の分布がマルチモーダルであり、提案がユニモーダルであるという事実からわかる別の問題の解決策です。
Chris Ferrie、2012年

@ChrisFerrie:私はあなたを信じていますが、表記法に基づいて、2つの独立したガウス確率変数の合計がそうではないのに、上記の分布がマルチモーダルになる理由について混乱しています。ここで何が欠けていますか?
Geoff Oxberry 2012年

混乱は、ランダム変数の合計ではなく、多数のPDFの合計であるPDFを見ていることだと思います。、これらは常に同じとは限りません。代わりに、私たちのPDFはランダム変数を周辺化すると考えることができます。ip(X1+X2)p(X1)+p(X2)i
Chris

ああ、あなたはPDFの合計を見ています。はい、それはまったく別の獣です。質問をもっと詳しく読んだので、あなたの言っていることがわかりました。私は私の応答を削除します。ありがとう!
Geoff Oxberry 2012年

私は以前に削除した回答を元に戻しましたが、他の人の道標として機能するため、バロンのように誰もこの質問に答えることはできませんでした。私の回答に賛成票または反対票を投じないでください。
Geoff Oxberry 2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.