ウィルクスの定理との有限混合でガウシアンの数を見つけますか?


11

一連の独立した同一分布の単変量観測と、生成方法に関する2つの仮説があるとします。xx

H0: は、平均と分散が不明な単一のガウス分布から描画されます。x

HA: は、平均、分散、混合係数が不明な2つのガウス分布の混合物から描画されます。x

私が正しく理解している場合、これらはネストされたモデルです表すモデルは、2つのガウスのパラメーターが同一になるように制約するか、2つのガウスの1つについて混合係数がゼロになるように制約する場合、記述できるためです。 H0HA

したがって、EMアルゴリズムを使用してのパラメーターを推定し、ウィルクスの定理を使用してのデータの可能性がのデータの可能性よりも大幅に高いかどうかを判断できるように思われ。EMアルゴリズムがここで最大の可能性に収束するという仮定には多少の信頼がありますが、それは私が喜んで作成するものです。HAHAH0

モンテカルロシミュレーションでこれを試しましたは(2番目のガウス分布と混合パラメーターの平均と分散)よりも3自由度が高いと仮定しています。からのデータをシミュレートすると、実質的に不均一で小さなP値に富んだP値の分布が得られました。(EMが真の最大尤度に収束していなかった場合、正反対が予想されます。)このバイアスを生み出しているウィルクスの定理の私の適用の何が問題になっていますか?HAH0H0

回答:


8

帰無仮説が2成分混合モデルにどのように含まれるかを注意深く指定すると、問題が何であるかを確認できます。混合モデルの5つのパラメーターが場合、 2つの通常の混合成分が等しい場合、その場合、混合比率は無関係であるか、混合比率は0または1であり、その場合、混合成分の1つは無関係です。結論は、帰無仮説は、たとえローカルであっても、パラメーター空間の次元を5から2に落とす単純なパラメーター制限として指定することはできないということです。μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

帰無仮説は、パラメーター空間全体の複雑なサブセットであり、帰無仮説の下では、パラメーターを特定することさえできません。ウィルクの定理を分解するために必要な通常の仮定は崩れます。特に、対数尤度の適切なテイラー展開を構築することはできません。

私はこの特定の問題について個人的な経験はありませんが、パラメーターがヌルの下で「消える」他のケースを知っています。これもここに当てはまるようで、これらのケースではウィルクの定理の結論も崩れます。クイック検索により、とりわけ関連性があると思われるこのペーパーが得られました。また、混合モデルに関連した尤度比検定の使用に関する参考資料が見つかる可能性があります。


ありがとう。このようなことが問題だと思ったのですが、よくわかりませんでした。ウィルクスの定理の目的でネストされたモデルを構成する細かい点について少し混乱しました。ヌルの下での識別可能性についての良い点。
dsimcha '10年

4

(a)パラメータため、混合成分の数の推論は、ウィルクスの定理に必要な規則性条件を満たしていませんρパラメータ空間の境界にあり、(b)パラメータ化はヌルの下では識別できません。これは、一般化された尤度比の分布が未知であると言っているのではありません!セットアップ内の5つのパラメーターがすべて不明で、さらに重要なのは無制限の場合、LR統計の分布は収束しません。識別できないすべてのパラメーターが制限されている場合、LR統計は切り捨てガウスプロセスの上限で単調になります。一般(5パラメーター)の場合、およびそれが存在する場合でも、そのような共分散の計算は容易ではありません。このようなプロセスの上限の分布は、簡単に近似できません。2成分混合物に関するいくつかの実際的な結果については、こちらを参照してください。興味深いことに、このペーパーは、比較的単純な設定では、LR統計が一部の単純な統計よりも実際にはそれほど強力ではないことを示しています。このような問題における漸近分布の導出に関する精力的な論文については、こちらを参照してください。すべての実用的な目的のために、EMを使用して混合物を近似し、LR統計の分布をブートストラップできます。EMが遅いことがわかっているため、これには時間がかかる場合があり、サンプルサイズの影響をキャプチャするには多くのレプリケーションが必要です。詳細はこちらをご覧ください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.