混合型分布の最尤関数

11

一般的に、関数を最大化します

L (θ; x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} f (x_{i} ∣ θ)

$L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i \mid \theta)$

ここで、 $f$ は、基礎となる分布が連続的な場合の確率密度関数であり、分布が離散的である場合は、確率質量関数（積の代わりに合計を使用）です。

基になる分布が連続分布と離散分布の混合であり、それぞれの重みが依存している場合、尤度関数をどのように指定しますか？ $\theta$

— ボニファズ
ソース

2

あなたの意見に正確に当てはまらないものは何ですか。

— Tim

@Tim、私の混乱は、尤度関数が連続および離散確率に関する標準の定義よりも一般的な定義を持っていることを知らなかったことが原因です。つまり、私の考えは次のとおりでした。分布は連続的でも離散的でもないため、尤度関数を持つことはできません。なので、尤度関数がないため、MLEは適用されません。

— グレゴリア2017

1

分布は離散的でも連続的でもない可能性があります。たとえば、カントール分布であり、西安尤度は確率密度関数で定義されるため、尤度を定義するには分布のpdfのみが必要です。

— Tim

@ティム、私はさまざまなディストリビューションがあることをかなり知っています。それが私が作ろうとしていた点です。尤度はpdfよりも一般的な概念であることに注意してください。特に、連続変数のみがpdfを持っています（正確にこれらの分布はpdfを持っています）。たとえば、あなたが言及したCantorディストリビューションにはPDFがありません。

— グレゴリア2017

pdfをどのように定義するかによって異なりますが、pmfはpdfの特殊なケースと考えることができます。ディラックデルタなどの観点から離散分布のpdfを定義できるため、分布が離散型または混合型であっても問題ありません。

— Tim

7

尤度関数観測値のデータの密度である関数として表さこの密度は、毎（許容される）値のために定義されています依存しない上の特定の測度に対する、サポート上のほぼすべての場所での。パラメトリックファミリーの場合、すべてのにわたってこのような支配的な測定が存在する $\ell(\theta|\mathbf{x})$ $\mathbf{x}$ $\theta$

ℓ (θ | x) = f (x | θ)

$\ell(\theta|\mathbf{x})=f(\mathbf{x}|\theta)$

θ

$\theta$

x

$\mathbf{x}$

X

$\mathfrak{X}$

X

$\mathfrak{X}$

θ

$\theta$

θ

$\theta$ の、したがって密度、したがって可能性。

尤度関数に関するウィキペディアエントリからの関連する抜粋を以下に示します（ストレスは私のものです）。

測度理論確率理論では、密度関数は、支配的な測度に対する確率分布のラドンニコディム微分として定義されます。これにより、離散、絶対連続、混合など、あらゆる分布の確率モデルに尤度関数が提供されます。 （尤度は、たとえば、パラメーター推定の場合、同じ支配的尺度に関してラドンニコディムの導関数である場合にのみ比較可能です。）

— 西安
ソース

7

私のキャリアのかなり早い時期に、この質問に戸惑っていることを認めます。私が答えを確信した1つの方法は、状況について非常に実用的で応用的な見方をすることでした。それがどこにつながるか見てみましょう。

この演習のポイントは、可能性の表現における密度と確率のやや派手な混合を正当化するために必要となる可能性がある仮定を明らかにすることです。したがって、それらが導入されている場合は常に、そのような仮定を強調します。かなりの数が必要であることがわかりましたが、それらはかなり穏やかで、私が遭遇したすべてのアプリケーションをカバーしています（明らかに制限されますが、まだかなりの数が含まれています）。

問題が懸念混合分布 $F,$ どちらも絶対連続でも特異であるものを。ルベーグの分解定理は、そのような分布を絶対的に連続な分布（定義により密度関数 $f_a$ ）と確率質量関数 $f_d.$ を持つ特異な（「離散」）分布の混合として見ることを可能にします（私は3番目の、連続的であるが絶対的に連続的ではないコンポーネントが存在する可能性を無視します。そのようなモデルを使用する人は、彼らが何をしているかを知っている傾向があり、通常それらを正当化するためのすべての技術スキルを持っています。

とき $F = F_\theta$ 分布のパラメトリックファミリーのメンバーであるが、我々は書くことができ

F_{θ} (x) = F_{a θ} (x) + F_{d θ} (x) = \int_{\infty}^{x} f_{a} (t; θ) d t + \sum_{t \leq x} f_{d} (t; θ) .

$F_\theta(x) = F_{a\theta}(x) + F_{d\theta}(x) = \int_{\infty}^x f_a(t;\theta)\mathrm{d}t + \sum_{t \le x} f_d(t;\theta).$

（もちろん、合計は最大でも数えられます。）ここで、 $f_a(\,;\theta)$ は、いくつかの混合係数 $\lambda(\theta)$ と $f_d(\,;\theta)$ を乗じた確率質量関数である $1-\lambda(\theta).$

レッツは、任意の観測の解釈 $x_i$ IIDデータセット内の $X=(x_1,x_2,\ldots, x_n)$ 、我々は一定の知識を持って「本当に」という意味としてその仮想の真の根底にある値 $y_i$ 区間にある $(x_i-\delta_i, x_i+\epsilon_i]$ 周囲 $x_i,$ それ以外についての情報がない $y_i.$ すべてのデルタとイプシロンを知っていると仮定すると、確率ですべてを表すことができるため、尤度を構築する際に問題が発生することはありません。

L (X; θ) = \prod_{i} (F_{θ} (x_{i} + ϵ_{i}) - F_{θ} (x_{i} - δ_{i})) .

$\mathcal{L}(X;\theta) = \prod_i \left(F_\theta(x_i + \epsilon_i) - F_\theta(x_i - \delta_i)\right).$

サポート場合 $F_{d\theta}$ いずれにおいても結露ポイントがない $x_i,$ 確率への寄与はほとんどが単一用語はイプシロンを提供し、デルタが十分に小さくされている時に削減されます：何の貢献もないだろうとき $x_i$ ではありませんそのサポート。

我々は仮定した場合 $f_a(\,;\theta)$ で連続リプシッツすべてのデータ値で、次いで均一イプシロン及びデルタのサイズで我々は絶対連続一部近似できる $F_\theta(x_i)$ として

F_{a θ} (x_{i} + ϵ_{i}) - F_{a θ} (x_{i} - δ_{i}) = f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + o (| ϵ_{i} + δ_{i} |) .

$F_{a\theta}(x_i + \epsilon_i) - F_{a\theta}(x_i - \delta_i) = f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|).$

この近似の均一性は、すべてのイプシロンとデルタを小さくすると、すべての $o()$ 項も小さくなることを意味します。その結果これらのすべての誤差項の寄与によって支配される、非常に小さい値 $\epsilon(\theta)\gt 0,$ があります。

\begin{aligned} L (X; θ) & = \prod_{i} (f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + o (| ϵ_{i} + δ_{i} |) + f_{d} (x_{i}; θ)) \\ = \prod_{i} (f_{a} (x_{i}; θ) (ϵ_{i} + δ_{i}) + f_{d} (x_{i}; θ)) + o (ϵ (θ)) . \end{aligned}

$\eqalign{ \mathcal{L}(X;\theta) &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|) + f_d(x_i;\theta)\right)\\ &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + f_d(x_i;\theta)\right)\ + \ o(\epsilon(\theta)). }$

これはまだ少し厄介ですが、どこに行くのかを示しています。打ち切りデータの場合、これらのモデルは通常、分布の特異部分のサポートが連続部分のサポートから切り離されていると仮定するため、製品の各項の一部だけが非ゼロになります。パラメータ $\theta$ はあるかもしれません。（具体的には、 $f_d(x) \ne 0$ 意味します $F_a(x+\epsilon)-F_a(x-\epsilon) = o(\epsilon).$ ）これにより、製品を2つの部分に分割することができ、連続部分からのすべての間隔からの寄与を因数分解できます。

L (X; θ) = (\prod_{i = 1}^{k} (ϵ_{i} + δ_{i})) \prod_{i = 1}^{k} f_{a} (x_{i}; θ) \prod_{i = k + 1}^{n} f_{d} (x_{i}; θ) .

$\mathcal{L}(X;\theta) = \left(\prod_{i=1}^k (\epsilon_i + \delta_i) \right)\prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta).$

（私はそのようにデータ索引付けた一般性を失うことなく $x_i, i=1, 2, \ldots, k$ 、連続部分に寄与し、そうでなければ $x_i, i=k+1, k+2, \ldots, n$ に寄与します尤度の特異部分）

この表現により、

間隔幅があるので $\epsilon_i+\delta_i$ 固定されている、彼らは（いくつかの正の定数倍にまでしか定義されている）可能性には寄与しません。

したがって、次の式を使用できます

L (X; θ) = \prod_{i = 1}^{k} f_{a} (x_{i}; θ) \prod_{i = k + 1}^{n} f_{d} (x_{i}; θ)

$\mathcal{L}(X;\theta) = \prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta)$

尤度比を構築するとき、または尤度を最大にするとき。この結果のすばらしいところは、この導出で使用される有限区間のサイズを知る必要がないことです。イプシロンとデルタはすぐに削除されます。実際に使用する尤度式が間隔サイズを知っている場合に使用する尤度式の適切な近似になるように、それらを十分に小さくできることを知る必要があります。

— whuber
ソース

1

正解（+1）。改善の提案-ある時点で共通のサポートがある場合（合計で離散項と連続項を分離できないため）、離散項が連続項を完全に支配するため、可能性は連続項を無視しますその時点でのパーツ（実質的にゼロに設定）。つまり、共通のサポートがあるポイントがあったとしても、それは単なる個別のパーツとして扱われ、ここで得られるのと同じ製品分解が得られます。（私が何かを見逃している場合を

— 除き

1

@Benその洞察に満ちたコメントをありがとう。ただし、発生する可能性があるいくつかの「エッジ」ケースについて少し心配しているため、この問題を回避したいと思います。たとえば、

のサポートポイントの1つで

が無限大になる場合、どうしますか？

f_{a}

$f_a$

f_{d}

$f_d$

— whuber

1

はい、それは厄介になります。ダッジは理解した！

— ベン-モニカを

1

この問題の追加の側面に注目して回答を追加しました。この問題は、ディスクリートパーツのサポートの連続密度を無視することで最も簡単に解決できることが判明しました。私の回答を読んで、これが問題のこの側面に対処するためのさらなる動機付けになるかどうかを確認してください。（私の直感は、

が

のサポートのある時点で無限になったとしても、離散部分よりも無限に小さいと見なされます。）

f_{a}

$f_a$

f_{d}

$f_d$

— ベン-モニカ

6

この質問は、尤度分析において非常に重要な根本的な問題であり、非常に微妙で難しい問題でもあるので、コメントで受け取っている表面的な答えのいくつかにかなり驚いています。

いずれにせよ、この回答では、whuberの優れた回答（この問題に対する正しいアプローチだと思います）に1点だけ追加します。その点は、このコンテキストの尤度関数は混合優勢測度の密度関数に由来することであり、これにより、連続部分と離散部分で尤度関数の相対サイズを任意にスケーリングできるという興味深い特性が得られます。尤度関数。これにより、一意の尤度関数がない場合に、どのようにして尤度手法を実装できるかという明らかな疑問が生じます。

この点を説明するには、確率測度のラドンニコディム微分としてのサンプリング密度に関する予備的なプレゼンテーションが必要なので、ご容赦ください。最初に混合優勢メジャーの密度関数を取得する方法を示し、次にこれがなぜ可能性の連続部分と離散部分を自由にスケーリングできるようになるのかを示します。最後に、尤度ベースの分析に対するこの問題の影響について説明し、その解決策について私の意見を述べます。これは本質的に彼の答えにwhuberが提示する方法によって解決されると思いますが、個別の部分のサポートの各ポイントが無視することを確実にするために、その答えへのコメントで議論した方向に拡張する必要がありますその時点での連続部分。

支配的な尺度を使用して密度を発現する：実際のランダム変数の混合密度に対処する標準的なアプローチは、使用するルベーグ測度 $\lambda_\text{LEB}$ 連続部分とするための支配的な尺度として計数測度 $\lambda_\text{COUNT}$ （一部は可算集合指定かけ $\mathcal{D} \subset \mathbb{R}$ ）個別部品の支配的な尺度として。これにより、次の式で定義されるラドンニコディム微分が導かれます。

P (X \in A | θ) = \int_{A} f (x | θ) d λ_{LEB} (x) + \int_{A} p (x | θ) d λ_{COUNT} (x) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f(x | \theta) \ d \lambda_\text{LEB}(x) + \int \limits_\mathcal{A} p(x | \theta) \ d\lambda_\text{COUNT}(x).$

$x \in \mathcal{A} \cap \mathcal{D}$ $\lambda_* \equiv \lambda_\text{LEB} + \lambda_\text{COUNT}$

f_{*} (x | θ) \equiv I (x \notin D) \cdot f (x | θ) + I (x \in D) \cdot p (x | θ) .

$f_*(x | \theta) \equiv \mathbb{I}(x \notin \mathcal{D}) \cdot f(x | \theta) + \mathbb{I}(x \in \mathcal{D}) \cdot p(x | \theta).$

$\lambda_*$

P (X \in A | θ) = \int_{A} f_{*} (x | θ) d λ_{*} (x) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_*(x | \theta) \ d \lambda_*(x).$

$f_*$ $X$ $x$ $\theta$ $L_x^*(\theta) \propto f_*(x | \theta)$ $x$ $\theta$

$\lambda_{**} \equiv \alpha \cdot \lambda_\text{LEB} + \beta \cdot \lambda_\text{COUNT}$ $\alpha > 0$ $\beta > 0$

f_{* *} (x | θ) \equiv \frac{I (x \notin D)}{α} \cdot f (x | θ) + \frac{I (x \in D)}{β} \cdot p (x | θ) .

$f_{**}(x | \theta) \equiv \frac{\mathbb{I}(x \notin \mathcal{D})}{\alpha} \cdot f(x | \theta) + \frac{\mathbb{I}(x \in \mathcal{D})}{\beta} \cdot p(x | \theta).$

$\lambda_{**}$

P (X \in A | θ) = \int_{A} f_{* *} (x | θ) d λ_{* *} (x) .

$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_{**}(x | \theta) \ d \lambda_{**}(x).$

$L_x^{**}(\theta) \propto f_{**}(x | \theta)$ $x$ $\theta$ $\alpha$ $\beta$

$^\dagger$

$x_1,...,x_k \notin \mathcal{D}$ $x_{k+1},...,x_n \in \mathcal{D}$

\begin{aligned} L_{x}^{* *} (θ) = \prod_{i = 1}^{n} L_{x_{i}}^{* *} (θ) & = \prod_{i = 1}^{n} f_{* *} (x_{i} | θ) \\ = (\prod_{i = 1}^{k} \frac{1}{α} \cdot f (x_{i} | θ)) (\prod_{i = k + 1}^{n} \frac{1}{β} \cdot p (x_{i} | θ)) \\ = \frac{1}{α^{k} β^{n - k}} (\prod_{i = 1}^{k} f (x_{i} | θ)) (\prod_{i = k + 1}^{n} p (x_{i} | θ)) \\ = \frac{1}{α^{k} β^{n - k}} \prod_{i = 1}^{n} f_{*} (x_{i} | θ) \\ \propto \prod_{i = 1}^{n} f_{*} (x_{i} | θ) \\ = \prod_{i = 1}^{n} L_{x_{i}}^{*} (θ) \\ = L_{x}^{*} (θ) . \end{aligned}

$\begin{equation} \begin{aligned} L_\mathbb{x}^{**}(\theta) = \prod_{i=1}^n L_{x_i}^{**}(\theta) &= \prod_{i=1}^n f_{**}(x_i | \theta) \\[12pt] &= \Bigg( \prod_{i=1}^k \frac{1}{\alpha} \cdot f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n \frac{1}{\beta} \cdot p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \Bigg( \prod_{i=1}^k f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &\propto \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &= \prod_{i=1}^n L_{x_i}^{*}(\theta) \\[12pt] &= L_\mathbb{x}^{*}(\theta). \\[12pt] \end{aligned} \end{equation}$

これは、主要なメジャーのスケーリングプロパティが、標準のMLE問題では無視できるスケーリング定数を通じてのみ尤度関数に影響を与えることを示しています。この問題の私の扱いでは、この有用な特性は、サンプリング密度が離散部分をサポートしているときに連続密度を無視する方法で定義されているという事実の直接の結果として発生したことに注意してください。（これは、これらのパーツの組み合わせを許可するwhuberの回答とは異なります。これは実際にはいくつかの困難な問題につながる可能性があると思います。その回答に対する私のコメントを参照してください。）

$^\dagger$

— ベン-モニカの復活
ソース

3

+1。私の初歩的な説明と@ Xi'anの元の測度理論的答えを結びつけ、それによって（非常に有益な）完全な一周を行ってくれました。

— whuber

3

これが発生する1つの例、つまり連続型/離散型の混合の確率モデルによって与えられる尤度は、打ち切られたデータです。例については、打ち切りを伴う加重正規誤差の回帰を参照してください。

$f(x;\theta)$ $\lambda$ $\theta$ $x_1, x_2, \dotsc, x_n$ $\prod_i f(x_i;\theta)$

$\lambda$ $(0,\infty)$

— kjetil b halvorsen
ソース