なぜ確率分布はここで増加するのですか？

9

ましょ $X$ 例えば、ライブに残り日数のあなたの番号です。医者1件の評価さの分布 $X$ ガウシアンとして： $P(X)\sim\mathcal{N}(\mu_1,\sigma_1)$ 。別の独立した医師2件の評価さ $P(X)\sim\mathcal{N}(\mu_2,\sigma_2)$ 。どちらの医師も同等に信頼できます。両方の情報を組み合わせる方法は？

で、このブログの記事で、著者はと言います

2つの確率があり、両方が真である可能性を知りたい場合は、それらを乗算します。したがって、2つのガウスblobを取得して乗算します。

編集ほとんどの人は（私が最初math.SEにこの質問をした）、これは些細な独立の関係であると答えているが、私はまだ難し何だろう理解が午前とこの状況にあること：おそらく「サイコロは3を与える」または「患者は病気です」などのイベントではありません。2つの密度の積は、一般的にので、確率密度はないので、また、より多くの何かが、おそらくある $P(A\cap B)=P(A)P(B)$ $A$ $B$ $\int_\mathbb{R} P(x)^2 \neq 1$ 。したがって、それはおそらくそれほど単純ではありません。

別の例を見てみましょう。エキスパート1は、サイコロが完全にバランスが取れていると言います。別の専門家2は、独立して同じようにあなたに言います。次いで3を与えるサイコロの確率は確かではない。 $1/6^2$

probability normal-distribution

— Anderstood
ソース

8

これらの操作は、確率ではなく尤度に対して実行されています。 区別は微妙かもしれませんが、2つの密度の積が密度になることは決してないという重要な側面を特定しました。

ブログの言語はこれを示唆していますが、同時に微妙に間違っています-それを分析しましょう：

この分布の平均は、両方の推定が最も可能性が高い構成であり、したがって、私たちが持っているすべての情報が与えられた場合の真の構成の最良の推測です。

製品がディストリビューションではないことはすでに確認しています。（適切な数を乗算することで1に変換することもできますが、ここではそうではありません。）
「推定する」および「最良の推定」という言葉は、この機構がパラメーターを推定するために使用されていることを示しています-この場合、「真の構成」（x、y座標）。
残念ながら、平均は最良の推測ではありません。モードがあります。これが最尤（ML）原理です。

ブログの説明が意味をなすためには、次のことを想定する必要があります。まず、本当の明確な場所があります。抽象的にと呼びましょう。第二に、各「センサー」は報告していません。代わりに、に近いと思われる値を報告します。センサーの「ガウス」は、分布の確率密度を示します。非常に明確にするために、センサーの密度はに応じて関数であり、任意の領域（平面内）について、センサーが値を報告する可能性は $\mu$ $\mu$ $X_i$ $\mu$ $X_i$ $i$ $f_i$ $\mu$ $\mathcal{R}$ $\mathcal{R}$

Pr (X_{i} \in R) = \int_{R} f_{i} (x; μ) d x .

$\Pr(X_i \in \mathcal{R}) = \int_{\mathcal{R}} f_i(x;\mu) dx.$

第3に、2つのセンサーは物理的に独立して動作していると想定されており、統計的に独立していると見なされます。

定義により、可能性の2つの観察の確率である密度、それらはこの結合分布の下でなければならない与えられた真の位置です。独立性の仮定は、それが密度の積であることを意味します。微妙な点を明確にするために、 $x_1, x_2$ $\mu$

を観測値割り当てる積関数は、確率密度ではありません。しかしながら、 $f_1(x;\mu)f_2(x;\mu)$ $x$ $x$
積は、順序付けられたペアの結合密度です。 $f_1(x_1;\mu)f_2(x_2;\mu)$ $(x_1, x_2)$

投稿された図では、は1つのblobの中心であり、は別のblob の中心であり、その空間内の点は可能な値を表します。確率も確率についても、ももまったく何も言わないことに注意してください。は単なる未知の固定値です。それは確率変数ではありません。 $x_1$ $x_2$ $\mu$ $f_1$ $f_2$ $\mu$ $\mu$

次に、微妙なひねりを加えます。尤度は関数と見なされます。データがあります-私たちはが何である可能性が高いかを理解しようとしています。したがって、プロットする必要があるのは尤度関数です $\mu$ $\mu$

Λ (μ) = f_{1} (x_{1}; μ) f_{2} (x_{2}; μ) .

$\Lambda(\mu) = f_1(x_1;\mu)f_2(x_2;\mu).$

これもたまたまガウス型であるのは、たまたまの偶然です！ デモは明らかにしています。（2つ以上ではなく）1次元だけで数学を実行して、パターンを確認しましょう。すべてがより多くの次元に一般化されます。ガウスの対数の形式は

\log f_{i} (x_{i}; μ) = A_{i} - B_{i} (x_{i} - μ)^{2}

$\log f_i(x_i;\mu) = A_i - B_i(x_i-\mu)^2$

定数および。したがって、対数尤度は $A_i$ $B_i$

\begin{aligned} \log Λ (μ) & = A_{1} - B_{1} (x_{1} - μ)^{2} + A_{2} - B_{2} (x_{2} - μ)^{2} \\ = C - (B_{1} + B_{2}) {(μ - \frac{B_{1} x_{1} + B_{2} x_{2}}{B_{1} + B_{2}})}^{2} \end{aligned}

$\eqalign{ \log \Lambda(\mu) &= A_1 - B_1(x_1-\mu)^2 + A_2 - B_2(x_2-\mu)^2 \\ &= C - (B_1+B_2)\left(\mu - \frac{B_1x_1+B_2x_2}{B_1+B_2}\right)^2 }$

ここで、は依存しません。これは、役割が分数で示された加重平均に置き換えられたガウスの対数です。 $C$ $\mu$ $x_i$

メインスレッドに戻りましょう。のML推定値は、可能性を最大化する値です。同様に、ガウシアンの積から導出したガウシアンを最大化します。 定義により、最大はモードです。モードが偶然に平均と一致するのは、偶然（各ガウスの中心の点対称性に起因）です。 $\mu$

この分析により、特定の状況でのいくつかの偶然の一致が根底にある概念を覆い隠していることが明らかになりました。

多変量（結合）分布は、単変量分布（そうではありません）と簡単に混同されました。
可能性は確率分布のように見えました（そうではありません）。
ガウスの積がガウスである（センサーがガウス以外の方法で変化する場合、一般に当てはまらない規則性）;
そして、それらのモードは偶然にもそれらの平均と一致します（これは、真の値の周りに対称的な応答を持つセンサーに対してのみ保証されます）。

これらの概念に焦点を合わせ、偶然の行動を取り除くことによってのみ、実際に何が起こっているのかを知ることができます。

— whuber
ソース

1

この素晴らしい答えを本当にありがとう。問題は見かけほど単純ではないようです。自分がよく知っていると思っていた自立の概念を理解するのがなぜ難しいのかと、本当に思っていました。すべてのポイントが明確になるように時間をかけます。

— アンデルスタンド

2

[0, 1]

$[0,1]$

1

あなたが正しいです。私は、密度のすべての値がゼロ、1、または無限大の場合に、等しくなる可能性がある不平等を念頭に置いていました。あなたの反例はすべてそのタイプです。

— whuber

6

私はすでにすばらしい答えを見つけましたが、私はすでにそれを書き始めたので、私は私のものを投稿しています。

$d_1\sim N(\mu_1, \sigma_1)$

$d_2\sim N(\mu_2, \sigma_2)$

$P(d_1,d_2)=P(d_1|d_2)P(d_2)$ $P(d_1)P(d_2)$ $P(d_1|d_2)=P(d_1)$

— マイク博士
ソース

2

きちんとした詳細のための仮想+1。システムが本当の+1を提供できないのは残念です。

— ラック、

d_{1}

$d_1$

d_{1}

$d_1$

x

$x$

d_{1}

$d_1$

d_{1}

$d_1$

d_{1}

$d_1$

P (d_{1}, d_{2})

$P(d_1,d_2)$

[0, 1]

$[0,1]$

d_{1}

$d_1$

d_{2}

$d_2$

2

ガウスは確率密度であり、確率ではないため、この説明は不完全です。

— whuber