個々のサンプルの確率が0であるのに、なぜMLEが理にかなっていますか?


13

これは、いくつかの古い統計を確認しているときに感じた奇妙な考えであり、何らかの理由でその答えを考えることができないようです。

連続PDFは、特定の範囲の観測値の密度を示します。すなわち、場合XN(μ,σ2)、例えば、次に実現が間に入る確率とBは単にbは φをX D Xここでφは、標準正規の密度です。ababϕ(x)dxϕ

たとえばμパラメーターのMLE推定を行うことを考えるとき、たとえばNランダム変数X1..XNの結合密度を書きますX Nとする対数尤度WRT分化μ、0に等しく設定し、について解きますμ。しばしば与えられる解釈は「データが与えられると、どのパラメーターがこの密度関数をもっともらしいものにするか」です。

私を悩ませている部分はこれです:N rvの密度があり、特定の実現、たとえばサンプルを取得する確率は正確に0です。データ(繰り返しますが、実際のサンプルを観察する確率は正確に0です)?

私が思いつく唯一の合理化は、領域内の積分(したがって、この領域内のデータを観測する確率)が最高になるよう、観測されたサンプルの周囲で PDFを可能な限りピークにしたいということです。


1
同じ理由で、確率密度を使用しますstats.stackexchange.com/q/4220/35989
ティム

密度を使用することが理にかなっている理由を理解しています(私は思う)。私が理解していないのは、発生確率が0のサンプルを観察することを条件に密度を最大化することが理にかなっている理由です。
アレックス

2
確率密度は、どの値が他の値よりも比較的高い可能性があるかを示すためです。
ティム

あなたが質問に完全に答える時間があれば、私と次の人にとってそれがより役立つと思います。
アレックス

幸いなことに、尤度は確率ではないからです!
AdamO

回答:


18

任意のサンプルの確率、Pθ(X=x)、ゼロに等しく、まだ一つのサンプルは、確率分布から引くことによって実現されます。したがって、確率はサンプルとそれが発生する可能性を評価するための間違ったツールです。Fisher(1912)で定義されている統計尤度は、δがゼロになるときの長さδの区間内でサンプルxを観測する確率の制限引数に基づいています(Aldrich、1997からの引用δδ

Aldrich、J.(1997)Statistics Science12、162-176

この確率をδ繰り込むとき。尤度関数の用語は、フィッシャー(1921)でのみ導入され、フィッシャー(1922)で最尤法の用語です。

彼は「最も可能性の高い値」と呼ばれ、フラット確率で逆確率の原理(ベイズ推定)を使用しましたが、カールフリードリヒガウスは1809年に正規分布の分散パラメーターの最尤推定量をすでに導出していました。ハルド(1999)は、一般的な原則を定めたフィッシャーの1912年の論文の前に、最尤推定量のいくつかの他の出現について言及しています。

最尤アプローチのその後の正当化は、サンプルの正規化された対数尤度(x1,,xn)

1ni=1nlogfθ(xi)
に収束する[法大量の]
E[logfθ(X)]=logfθ(x)f0(x)dx
(ここで、f0 IID試料の真密度を示す)、[の関数としての可能性を最大化するθ ]は最小限に漸近的に等価である[においてθ ]カルバック・ライブラー情報量は
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
IID試料の真の分布で表される分布のファミリー間のfθさん。


答えてくれてありがとう。KLの議論を少し広げていただけますか?私はこれがどのようにすぐに当てはまるのか見ていません。
アレックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.