尤度関数がpdfではない理由は何ですか?


57

尤度関数がpdf(確率密度関数)ではない理由は何ですか?


6
尤度関数は、未知のパラメータの関数である(データを条件)。そのため、通常はエリア1を持たない(つまり、すべての可能な値の積分は1ではない)ため、定義ではpdfではありません。θθθ
MånsT

3
2年前にMOに同じ質問:mathoverflow.net/questions/10971/...
ダグラスZare

3
興味深いリファレンス、@ Douglas。答えはかなり不満です、私見。受け入れられているものは、単に真実ではないことを前提としています(「と両方はpdfです」:ではありません!)。p(X|m)p(m|X)
whuber

2
+1 whuber。これは、数学レベルが非常に高いにもかかわらず、mathoverflowサイトに非常に悪い回答があることは驚くべきことです。
ステファンローラン

1
@Stephane:これは事実ですが、統計学者や確率論者でさえ、MOについてはかなり少数であり、いくつかの顕著な例外を除いてははるかに少ないようです。その質問は、一般的に許容される質問と回答の質の両方が実質的に異なっていたMOの存在のかなり早い時期からのものでした。
枢機

回答:


61

2つの定義から始めます。

  • 確率密度関数(PDF)は、に統合非負関数である。1

  • 尤度は、観測データの結合密度とパラメーターの関数として定義されます。ただし、以下のコメントで@whuberが行ったLehmannへの参照で指摘されているように、尤度関数はパラメーターのみの関数であり、データは固定定数として保持されます。したがって、データの関数としての密度であるという事実は無関係です。

したがって、尤度関数はpdfではありません。パラメーターに関する積分が必ずしも1に等しくないためです(実際には、@ whuberからの別のコメントで指摘されているように、まったく積分できない場合があります)。

これを確認するために、簡単な例を使用します。分布からの単一の観測があるとします。次に、尤度関数はB e r n o u l l iθ xBernoulli(θ)

L(θ)=θx(1θ)1x

であるという事実です。具体的には、場合、なので、、X = 1 L θ = θ 1 0 L θ D θ = 1 0 θ D θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

場合も同様の計算が適用されます。したがって、を密度関数にすることはできません。L θ x=0L(θ)

おそらく、尤度が確率密度ではない理由を示すこの技術的な例よりもさらに重要なのは、尤度はパラメーター値が正しい確率などでないことを示すことです- それはデータの確率(密度)ですパラメーター値を指定すると、これはまったく異なるものになります。したがって、尤度関数が確率密度のように振る舞うことを期待しないでください。


12
+1微妙な点は、積分の「」の出現でさえ尤度関数の一部ではないということです。どこからでも来ます。これを見るための多くの方法の中で、再パラメーター化は尤度に関して本質的なことは何も変更しないことを考慮してください-それは単にパラメーターの名前を変更するだけですが-積分を変更します。たとえば、対数オッズベルヌーイ分布をパラメーター化した場合、積分は収束しません。ψ = ログθ /1 - θ dθψ=log(θ/(1θ))
whuberの

3
それは、1つの方法です。MLEは単調変換では不変ですが、確率密度はそうではありません、 QED!これはまさにフィッシャーの議論であり、@ Michael Chernickの返信へのコメントでスケッチしました。
whuberの

4
+1 for whuberのコメント。パラメータ空間にフィールドさえないので、「」には一般的な意味さえありません!σdθσ
ステファンローラン

1
@PatrickCaldon唯一の連続性制約はcdfにあり、これには正しい連続性が必要です。これが必要なのは、あなたの確率が定義済みから未定義になり、(おそらく)戻ってこないようにするためです。100%確信はありませんが、cdfがあり、確率がある限り、を解く必要さえないと思います。できれば、RVが連続していることを確認するだけです。Df
ジョーイ

1
(+1)10Kの担当者に到達したことをおめでとうございます!素敵な答え; 特にあなたの例が好きです。乾杯。:)
枢機

2

わかりましたが、尤度関数は、パラメーター与えられた観測データの結合確率密度です。そのため、正規化して確率密度関数を作成できます。つまり、本質的にはpdfのようなものです。θ


3
したがって、パラメータに関して尤度が積分可能であることを指摘しているだけです(常に正しいですか?)。平坦な事前分布を使用すると、事後分布と尤度の関係をほのめかしているかもしれませんが、これ以上の説明がなければ、この答えは謎のままです。
マクロ

6
統一への統合は重要です。フィッシャーは、1922年の理論的統計の数学的基礎についての論文で、実際に、通常、尤度を「正規化」して、適切な関数を掛けると、。彼が異議を唱えたのは意性である。多くのが働く。「...このような接続では、確率という言葉が誤って使用されます。確率は頻度の比率であり、そのような値の頻度については何も知ることができません。」L(θ)p(θ)L(θ)p(θ)dθ=1p
whuberの

1
@Néstor(およびMichael)-whuberと私はどちらもこの質問を、尤度が密度関数ではない理由を尋ねると解釈したようです。関数として、θ異なる質問に答えているようです。もちろん、尤度は、観測値の密度関数です(パラメーター値が与えられた場合)-それが定義されている方法です。
マクロ

2
マイケル、私たちはそれをそのように解釈したと思います。なぜならば、尤度は関数なので、密度であれば、密度になるからです。あなたが持っている方法でそれを解釈することは想像できますが、その可能性はNestorのコメントを読んだ後まで私には起こりませんでした。θθ
マクロ

4
あいまいさはこの回答によって作成されますが、質問には存在しません。@Macroが指摘しているように、尤度はパラメーターのみの関数です。(例えば、「密度、固定されたについて関数と見なされ、尤度関数と呼ばれます:EL Lehmann、理論のポイント推定、セクション6.2 。)このように、質問は明らかです。「尤度は結合確率密度である」と答えると、問題は明確にならず混乱しますf(x1,θ)f(xn,θ)xθ
whuber

1

私は統計学者ではありませんが、私の理解では、尤度関数自体はパラメーターに関するPDFではありませんが、ベイズ規則によるそのPDFに直接関連しています。尤度関数P(X |θ)と事後分布f(θ| X)は密接にリンクしています。「まったく別のもの」ではありません。


1
当サイトへようこそ!このスレッドの他の回答へのコメントに興味深い資料があります。それらのいくつかは、追加の数学的機構が明示的に導入されない限り、ベイズの規則が適用されない理由を指摘します(パラメーターのSigmaフィールドなど)。
whuber

ありがとう@whuber。私はスレッドの他の場所でベイズの規則への言及に気づいていませんでしたが、コメントに暗示があると思います。ベイズのルールのコンテキストに尤度関数を配置することで、OPの質問に有用な直観が得られることに同意しませんか?
サンタヤナ

確率分布を仮定せずにベイズのルールを適用することはできません。その分布と、データの分布を関数として区別することは、このスレッドのほとんどすべてのことです。暗黙のうちに、そのような分布が存在する、または存在する可能性があると仮定すると、Michael Chernickの答えに対するコメントスレッドで議論される混乱の原因になります。したがって、この点について明確かつ慎重に議論することは有益であるが、それより短いものはより大きな混乱を招く危険性があることに同意します。θθ
whuber

私の謝罪、一見、スレッドは誤解に過ぎないように見えましたが、今、あなたが参照する関連コメント、特にフィッシャーの引用を見ています。しかし、これはベイジアン対フリークエンティストの議論に帰着しませんか?シータの確率分布を支持する論争をするベイジアン推論の実践者は多数いないのでしょうか?(あなたがそれらに同意するかどうかは別の問題です...)
サンタヤナ

1
はい、B対Fの議論がここに潜んでいます。思慮深い周波数主義者は、事前分布を採用する根拠が存在する場合、ベイズの規則を喜んで使用しますが、事前分布を採用する必要があることを否定して、ベイジアンの部品会社です。この質問がどのように表現されたかから手掛かりを得ることができます。代わりに「なぜ尤度関数をPDF(パラメータの場合)として扱うことができるのか」と尋ねた場合、この会話はベイジアン線に沿って進みます。しかし、ネガティブな質問をすることで、OPは頻繁な観点から可能性を調べるために私たちを探していました。θ
whuber

1

尤度はとして定義されここで、f(x;θ)が確率質量関数である場合、尤度は常に1未満ですが、f(x;θ)が確率密度関数の場合、密度は1より大きくなる可能性があるため、尤度は1より大きくなります。L(θ;x1,...,xn)=f(x1,...,xn;θ)

通常、サンプルはiidとして処理されます。
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

元のフォームを見てみましょう。

ベイズ推定によると、つまり、保持。最尤推定では、証拠に対する事前の比率が定数として扱われることに注意してください(この質問の回答を参照)。これにより、事前の信念が省略されます。尤度は、推定パラメータに基づいた事後と正の相関があります。はpdfかもしれませんが、は扱いにくい一部であるため、はそうではありません。 f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorLの LのLの LL^LLL^

たとえば、ガウス分布の平均分散と標準分散がわからないので、その分布から多くのサンプルを使用してトレーニングすることでそれらを取得したいと考えています。まず、平均と標準分散をランダムに初期化し(ガウス分布を定義)、次に1つのサンプルを取得して推定分布に適合させ、推定分布から確率を取得します。その後、サンプルを挿入して多くの確率を取得し、これらの確率を掛けてスコアを取得します。この種のスコアが尤度です。特定のpdfの可能性はほとんどありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.