周辺カウントのみが与えられた同時分布の最尤推定量


12

ましょうpx,y 2つのカテゴリ変数の同時分布であるX,Yと、x,y{1,,K}。セイnのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられているj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

S jT jが与えられた場合のの最尤推定量は何ですか?これは知られていますか?計算的に実行可能ですか?ML以外にこの問題に対する他の合理的なアプローチはありますか?px,ySj,Tj


2
マージンには、実際には共同分布に関する情報*は含まれていません(実際、これはコピュラのポイントです)。 *または少なくともほとんど-内部カウントは発生するマージンを超えることができないため、明らかにマージンには少なくともいくつかの情報が含まれます。特定の共同分布を念頭に置いていますか?なぜmaximum-entropyタグを使用したのですか?最大エントロピー解を求めていますか?
グレン_b-モニカの復活2014

私はコピュラにあまり詳しくありません。彼らは同様にカテゴリカルケースを保持しますか?それはどういう意味ですか-同じマージンを持つすべての共同分布は同じ可能性を持っているでしょうか?(最大エントロピーに関連性があると考えたため、最大エントロピーにタグを付けました。)
RS 14年

指定された分布モデルさえまだないので、実際にはを計算する立場にありません。ここには多くの可能性があります。コピュラは、順序付けされたカテゴリカルケース(一意でない場合)に存在しますが、それを提起する私の目的は、マージナルが一般的にあまり有益ではなかった理由の動機付けを与えることでした。カテゴリー数の場合に関して、フィッシャーは、マージンをジョイントに関する情報のないものとして扱い、フィッシャー・アーウィンの正確検定を行いました。最大エントロピーが必要な場合、おそらく最大エントロピーの解を得ることができますが、それが非常に有益であることはわかりません...P(x|θ)
Glen_b -Reinstate Monica 14年

(ctd)...構造。MEまたはMLのいずれの場合でも、2変量多項、2変量超幾何、またはより多くの構造を持つ何かであるかどうかにかかわらず、最初に何らかの種類のモデルが必要になると思います。この質問を参照してください。著者は回答を参照します。それは助けになるかもしれません。
グレン_b-モニカを復元14

1
一般的な二変量多項分布を意味しました。質問は、分布の合計が与えられ、共同分布からのサンプルを見た場合について語っています。ここにサンプルの合計があります。この問題はMLの場合に明確に定義されていると思います(解決策は一意ではないかもしれませんが、わかりません)。
RS 14年

回答:


4

この種の問題は、Dobra et al(2006)の論文「固定周辺合計による多元分割表のデータ増大」で研究されました 。ましょう、モデルのパラメータを示すものとnは各々に対するカウントの未観測整数テーブルを示すX Y の対、およびlet C S T )、限界カウント等しい整数テーブルの集合であるS T 。その後、限界カウント観測する確率S Tはである: P θn(x,y)C(S,T)(S,T)(S,T)P N | θが多項サンプリング分布です。これはMLの尤度関数を定義しますが、直接的な評価は小さな問題を除いて実行不可能です。彼らが推奨するアプローチはMCMCで、 n θを交互に更新します

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)nθ提案分布からサンプリングし、Metropolis-Hastingsの受け入れ比率に従って変更を受け入れます。これは、モンテカルロEMを使用して、近似最大値を見つけるように適合させることができます。 θ

別のアプローチでは、変分法を使用しての合計を近似します。限界制約は因子グラフとしてエンコードでき、期待伝播を使用してθに関する推論を実行できます。nθ

この問題は難しく、自明な解を認めない理由を確認するには、ケースを考える。服用Sを行和としてT列合計として、カウントの二つの可能なテーブルが存在する: [ 0 1 2 0 ]S=(1,2),T=(2,1)ST したがって尤度関数は 、PST | θ=3、P 12、P 2 21 +6、P 11、P 21、P 22 この問題のMLEはある Pの X Y = [ 0 1 / 3 2 / 3 0 ]

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
これは、左側の表を仮定することに対応します。対照的に、独立性を仮定することで得られる推定値は います尤度値が小さい。
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]

分析ソリューションを入手することはできませんか?
ベン・クーン

θθ={θx,y}(x,y)

分析ソリューションがあるとは思わないでしょう。これを説明するために例を追加しました。
トムミンカ14

ありがとう。おそらく漸近的に正しいのでしょうか?次に、マージン合計の条件付けは、マージン分布の条件付け(正規化後)と同じであり、各未観測整数テーブルの対数尤度はそのエントロピーに比例します。AEPで何かしら?
RS

1

@Glen_bが指摘したように、これは不十分に指定されています。尤度を完全に指定できない限り、最尤法を使用できるとは思わない。

独立を前提とする場合、問題は非常に簡単です(偶然、解決策は提案されている最大エントロピーの解決策だと思います)。問題に追加の構造を課す意思がなく、セルの値に何らかの近似が必要な場合は、Fréchet-Hoeffdingコピュラ境界を使用できます。追加の前提条件がなければ、これ以上先に進むことはできないと思います。


これの可能性は多項になります。なぜそれが不十分なのですか?
RS

私が理解しているように、尤度はデータを与えられたパラメータの関数です。ここでは、各セルの値はなく、周辺のみであるため、最大化はもちろんのこと、計算できるパラメーターの単一の関数もありません。一般に、マージンと互換性のある多くのセル構成があり、それぞれが異なる可能性を与えます。
F. Tusell

1
ええ、でも大丈夫です。パラメーターはp、データは限界です。私はまだ与えられた周辺の確率を計算することができますp-限界を与えるのは、セル構成のすべての確率の合計です。それは私が最大化できる単一の機能です。
RS

1

Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts given px,y is only a function of the marginal probabilities px=ypx,y and py=xpx,y. I'm still thinking about it.

Wrong stuff follows:

As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator for px,y is that it's not unique. For instance, consider the case with binary X,Y and marginals S1=S2=T1=T2=10. The two estimators

p=(120012),p=(14141414)

have the same marginal probabilities px and py in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).


Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Let p=(abcd) be a maximum-likelihood solution. Without loss of generality suppose 0<ad. Then p=(0b+ac+ada) has the same marginals and is thus also a maximum-likelihood solution.


If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in which X,Y are independent. You can see this as follows:

The entropy of the distribution is H(p)=x,ypx,ylogpx,y; maximizing subject to xpx,y=py and ypx,y=px (equivalently, g(p)=0 where gx(p)=ypx,ypx and gy(p)=xpx,ypy) using Lagrange multipliers gives the equation:

H(p)=kXYλkgk(p)

All the gradients of each gk are 1, so coordinate-wise this works out to

1logpx,y=λx+λypx,y=e1λxλy

plus the original constraints xpx,y=py and ypx,y=px. You can verify that this is satisfied when e1/2λx=px and e1/2λy=py, giving

px,y=pxpy.

For the first example: What is given is the marginal counts, not the marginal probabilities. In the case you've described, the probability of S1=S2=T1=T2=10 for the left p is the probability of [[10,0],[0,10]] which is 220. For the right p, it is 0a10Pr[[a,10a],[10a,a]], which is 10420. Even if there is no unique solution, it doesn't mean we can't point to some solution. Maximum entropy gives a unique solution, but it might not be maximum likelihood.
R S

You've calculated the probabilities incorrectly; for instance, you forgot to include the binomial coefficients. But you're right in that the two matrices give different joint distributions of marginal counts even though they give the same marginal distribution of marginal counts. (Yikes!) I'll think about this more.
Ben Kuhn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.