密度推定にベイズのアプローチはありますか


22

連続確率変数密度を推定することに興味があります。これを行う1つの方法は、カーネル密度推定を使用することです。X

しかし今、私は次の線に沿ったベイジアンアプローチに興味があります。は最初に分布従うと信じています。を読み取ります。新しい測定値に基づいてを更新する方法はありますか?XFnXF

私は自分が矛盾しているように聞こえますが、もしのみを以前の分布として信じているなら、それ以外のデータを私に納得させるべきではありません。ただし、があり、私のデータポイントがます。見ると、明らかに以前のものに固執することはできませんが、どうすれば更新できますか?FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

更新:コメントの提案に基づいて、Dirichletプロセスの検討を開始しました。次の表記法を使用します。

GDP(α,H)θi|GGxi|θiN(θi,σ2)

この言語で私の元の問題を組み立てた後、私は次のことに興味があると思います:。これをどのように行うのですか?θn+1|x1,...,xn

ノートのセット(2ページ)、著者は一例た( Urn Scheme)。これが関連するかどうかはわかりません。θn+1|θ1,...,θn

更新2:私も尋ねたい(メモを見た後):DPのをどのように選択しますか?ランダムな選択のようです。さらに、DPの以前のをどのように選択しますか?事前として事前確率を使用する必要がありますか?H θ HαHθH


2
「以前の配布としてFのみを信じている場合、それ以外のデータを納得させるべきではありません。」これはベイジアン推論のアンチテーゼです。ベイジアン推論は、あなたが一方の手で信じるものを、他方の手で世界取り、それらを一緒につぶして何が出てくるかを見るという線に沿っています。洗い、すすぎ、繰り返します。
アレクシス14

ディリクレ過程について何か知っていますか?
niandra82 14

最後の段落を無視:この問題には2つの一般的なオプションがあります。1つは、法線の有限混合(クロス検証の尤度に基づいていくつの法線を選択できます)または@ niandra82が示唆するように、法線の無限混合です。これらは、ギブスのサンプリングや変分推論のようなもので行うことができます。これらの方法のいずれかに精通していますか?

このKDEをどのように使用するつもりですか?選択した方法とサイズ(無限、有限)は、目的によって異なります。

これは、モデル選択の問題または哲学的な問題のように聞こえます。実際には、ベイズ推論で使用する可能性の私達の選択は...あまりにも前の信念を課し
ゾーイ・クラーク

回答:


2

ベイジアンアプローチが必要なため、推定するものについての事前知識を前提とする必要があります。これは、配布の形式になります。

さて、これは現在、複数のディストリビューションにわたるディストリビューションであるという問題があります。ただし、候補の分布がパラメータ化された分布のクラスに由来すると仮定する場合、これは問題ありません。

たとえば、データが未知の平均で既知の分散をもつガウス分布であると仮定する場合、必要なのは平均に対する事前分布のみです。

未知のパラメーター(と呼ばれる)のMAP推定は、未知のパラメーターが与えられた場合、すべての観測/データポイントが条件付きで独立していると仮定することで続行できます。次に、MAP推定値はθ

θ^=argmaxθ(Pr[x1,x2,...,xn,θ])

どこで

Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ]

事前確率と候補分布特定の組み合わせがあることに注意してください複数のデータ点として簡単に(閉鎖型)の更新に与える上昇が受信されます。Pr [ x | θ ]Pr[θ]Pr[x|θ]


1

密度推定のために必要なのは

θn+1|バツ1バツn

注式は、ディリクレ過程の予測分布に影響します。θn+1|θ1θn

密度推定では、実際に予測分布からサンプリングする必要があります

πdバツn+1|バツ1バツn

上記の分布からのサンプリングは、条件付きメソッドまたは限界メソッドのいずれかで実行できます。条件付きメソッドについては、Stephen Walker [1]の論文をご覧ください。限界的な方法については、Radford Nealの論文[2]で確認する必要があります。

Concnetrationパラメーターについて、Mike West [3]は、完全な条件付き分布を含むMCMC手順の推論方法を提案しています。MCMC手順で濃度を更新しないことにした場合、大きな値を選択すると、Dirichletプロセスから引き出される個別の値の数が個別の値の数よりも大きくなることに注意してください小さい数が使用される場合。α α ααααα

[1] SG、Walker(2006)。Dirichlet混合モデルをスライスでサンプリングします。統計学におけるコミュニケーション(シミュレーションと計算)。

[2] RM、Neal(2000)Dirichletプロセス混合モデルのマルコフ連鎖モンテカルロ法。Journal of Computational and Graphical Statistics。Vol 9、No 2、249-265ページ

[3] M.、West(1992)。ディリクレ過程混合モデルのハイパーパラメータ推定。テクニカルレポート


-1

新しい測定値に基づいてFを更新する方法はありますか?

そのための何かが正確にあります。これは、ベイジアン推論の主なアイデアです。

p(θ|y)p(y|θ)p(θ

、あなたの前に、あなたが呼んで。 Bayesiansは「可能性」と呼んでいるものであり、それはシータのいくつかの値を指定してデータを観測する確率です。あなたはそれらを一緒に掛けて、「事後」分布と呼ばれるものを得ます。これが「更新されたF」です。イントロのベイジアン統計の本の第1章をご覧ください。F p y | θ θpθFpy|θθ

(以前のもの)を取り除く必要はありません。それは、それを最適化するデータがあるので、もはや最良の推測ではないことを認識する必要があります。pθ


3
これは、質問が尋ねているものに答えているわけではありません。OPは、ときにに優先付ける方法を尋ねています。事前確率が密度のある分布に確率1を置くと仮定すると、尤度は。したがって、微分可能な(無限次元の)分布関数空間に事前分布を構築する必要があり、OPはこれを行う方法を求めています。X 1... X nは私は私はdはFF L F = Π Nを= 1、D Fをバツ1バツndFFFLF==1NdFdバツ|バツ=バツF
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.