ましょう 2つのカテゴリ変数の同時分布であると、。セイのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられている:
S j、T jが与えられた場合のの最尤推定量は何ですか?これは知られていますか?計算的に実行可能ですか?ML以外にこの問題に対する他の合理的なアプローチはありますか?
ましょう 2つのカテゴリ変数の同時分布であると、。セイのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられている:
S j、T jが与えられた場合のの最尤推定量は何ですか?これは知られていますか?計算的に実行可能ですか?ML以外にこの問題に対する他の合理的なアプローチはありますか?
回答:
この種の問題は、Dobra et al(2006)の論文「固定周辺合計による多元分割表のデータ増大」で研究されました 。ましょう、モデルのパラメータを示すものとnは各々に対するカウントの未観測整数テーブルを示す(X 、Y )の対、およびlet C (S 、T )、限界カウント等しい整数テーブルの集合である(S 、T )。その後、限界カウント観測する確率(S 、Tは)である: P (P (N | θが)多項サンプリング分布です。これはMLの尤度関数を定義しますが、直接的な評価は小さな問題を除いて実行不可能です。彼らが推奨するアプローチはMCMCで、 nと θを交互に更新します
別のアプローチでは、変分法を使用しての合計を近似します。限界制約は因子グラフとしてエンコードでき、期待伝播を使用してθに関する推論を実行できます。
この問題は難しく、自明な解を認めない理由を確認するには、ケースを考える。服用Sを行和としてT列合計として、カウントの二つの可能なテーブルが存在する: [ 0 1 2 0 ] したがって尤度関数は 、P(S、T | θ)=3、P 12、P 2 21 +6、P 11、P 21、P 22 この問題のMLEはある Pの X 、Y = [ 0 1 / 3 2 / 3 0 ]
@Glen_bが指摘したように、これは不十分に指定されています。尤度を完全に指定できない限り、最尤法を使用できるとは思わない。
独立を前提とする場合、問題は非常に簡単です(偶然、解決策は提案されている最大エントロピーの解決策だと思います)。問題に追加の構造を課す意思がなく、セルの値に何らかの近似が必要な場合は、Fréchet-Hoeffdingコピュラ境界を使用できます。追加の前提条件がなければ、これ以上先に進むことはできないと思います。
Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts given is only a function of the marginal probabilities and . I'm still thinking about it.
As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator for is that it's not unique. For instance, consider the case with binary and marginals . The two estimators
have the same marginal probabilities and in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).
Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Let be a maximum-likelihood solution. Without loss of generality suppose . Then has the same marginals and is thus also a maximum-likelihood solution.
If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in which are independent. You can see this as follows:
The entropy of the distribution is ; maximizing subject to and (equivalently, where and ) using Lagrange multipliers gives the equation:
All the gradients of each are 1, so coordinate-wise this works out to
plus the original constraints and . You can verify that this is satisfied when and , giving
maximum-entropy
タグを使用したのですか?最大エントロピー解を求めていますか?