「尤度は、比例の乗法定数までしか定義されていません」とは実際にはどういう意味ですか?


19

筆者は、表面上は初心者への紹介として、最尤推定の議論からベイズの定理へと導く論文を読んでいます。

尤度の例として、二項分布から始めます。

p(x|n,θ)=(nx)θx(1θ)nx

そして、両側を記録します

(θ|x,n)=xln(θ)+(nx)ln(1θ)

次の理由で:

「尤度は比例の乗法定数(または対数尤度の加法定数)までしか定義されていないため、二項係数を削除し、尤度の代わりに対数尤度を記述することにより、再スケーリングできます。」

数学は理にかなっていますが、「尤度は比例の乗法定数までしか定義されていない」と、これが二項係数を下げてp(x|n,θ)から(θ|x,n)

同様の用語が他の質問(ここここ)で出てきましたが、実際には、定義されている可能性や情報を乗法的定数の平均まで持っている可能性は明確ではありません。これを素人の言葉で説明することは可能ですか?

回答:


18

ポイントは、異なるモデル(同じデータに対して)が、乗法定数が異なる尤度関数につながることがありますが、情報の内容は明らかに同じでなければならないということです。例:

独立したベルヌーイ実験をモデル化し、それぞれが(確率)パラメーターベルヌーイ分布をもつデータ導きます。これは、尤度関数つながります または、二項分布変数によってデータを要約できます。、二項分布を持ち、尤度関数 を導き ます。未知のパラメーター関数として、以前の尤度関数に比例します。 。2つの尤度関数は明らかに同じ情報を含んでおり、同じ推論につながるはずです!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)ny
p

実際、定義上、これらは同じ尤度関数と見なされます。

別の観点:ベイズ分析に必要なベイズ定理で尤度関数を使用すると、そのような乗法定数は単純にキャンセルされることに注意してください!したがって、それらはベイジアン推論とは明らかに無関係です。同様に、最適な仮説検定(Neyman-Pearson補題)で使用されるように、尤度比の計算時にキャンセルします。また、最尤推定量の値には影響しません。そのため、頻繁な推論の多くでは役割を果たせないことがわかります。

さらに別の観点から議論することができます。上記のベルヌーイ確率関数(以降、「密度」という用語を使用)は、実際にはカウント測定、つまり各非負整数の質量が1である非負整数の測定に関する密度です。しかし、他の支配的な尺度に関して密度を定義することもできます。この例では、これは人工的なように思われますが、より大きな空間(関数空間)では本当に基本的です!特定の幾何学的分布を使用し、説明の目的のために、私たちを聞かせて、書かれたと、、およびなど。次に、に関するベルヌーイ分布の密度λλ(0)=1/2λ(1)=1/4λ(2)=1/8λ F λX = P X1 - P 1 - X2 X + 1 P X = X = F λX λλは、 で与えられ 、意味します この新しい支配的な測定では、尤度関数は(上記の表記法で) は余分な因子注意してください。したがって、尤度関数の定義で使用される支配尺度を変更すると、未知のパラメーター依存しない新しい乗法定数が発生します

fλ(x)=px(1p)1x2x+1
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+np、そして明らかに無関係です。これは、乗法定数が無関係であることを確認する別の方法です。この引数は、ラドン-ニコディム微分を使用して一般化できます(上記の引数は例です)。


「情報の内容は明らかに同じでなければなりません」これは、尤度の原則を信じている場合にのみ当てはまります!
jsk

はい、多分、しかし、私はそれがベイジアン原理からどのように続くかを示しました。
kjetil bハルヴォルセン

@kjetilbhalvorsen思慮深い答えをありがとう!私がまだ混乱していることの1つは、ベルヌーイ分布の可能性に二項係数が含まれていない理由です。あなたの答えは、なぜそれが重要でないのかを明確にしますが、そもそもなぜそれが可能性から除外されているのか理解できません。
-jvans

@jvans:二項係数は未知のパラメーターに依存しないため、尤度関数の形状に影響を与えられないためです
kjetil b halvorsen

12

基本的に、PDFの相対的な価値のみが重要であることを意味します。例えば、標準正規(ガウス)PDFは次のとおりです。、あなたの本は、彼らが使用することができると言っています代わりに、スケールを気にしないため、つまり。gでX=E-X2/2C=1fバツ=12πeバツ2/2gバツ=eバツ2/2c=12π

これは、尤度関数を最大化し、と最大値が同じになるためです。したがって、最大値はと同じになります。だから、彼らはスケールについて気にしません。G X E - X 2 / 2 F Xcgバツgバツeバツ2/2fバツ


6

引用の意味を説明することはできませんが、最尤推定では、尤度関数の最大値を見つけるかどうかは関係ありません (または最大 ここで、いくつかの定数であり、我々はの最大値に興味がないからである。 むしろ値 この最大値が発生し、 と両方が同じで最大値を達成する場所 θ L Xθ L Xθ L(x;θ)θaL(x;θ)aL(x;θ) L Xθ L Xθ θ ML G L Xθ 、G L Xθ θ ML A LNθMLL(x;θ)aL(x;θ)θML。そのため、乗法定数は無視できます。同様に、 尤度関数単調関数(対数などを考慮して、の最大値を決定することもでき、これからの値を推測します 。対数の場合、乗算定数 は加法定数なり、最大値の位置を見つけるプロセスではこれも無視できます: は、と同じポイントで最大化されます。g()L(x;θ)g(L(x;θ))θMLaln a + ln L x ; θ ln L x ; θ lnalna+lnLバツ;θlnLバツ;θ

最大旋回事後確率(MAP)推定を、 確率変数の実現とみなされると 先験的密度関数、データはの実現とみなされます確率変数、尤度関数は、の値であると考えられる 条件付き密度 のを条件 ; で評価される条件付き密度関数。のΘ F Θθ X X FθΘfΘθバツバツfバツΘバツΘ=θバツΘ=θバツ事後密度は 分子を結合密度として認識のデータと推定されるパラメーター。点、その最大値は、のMAP推定値でなると同じ引数を使用して、及びこの段落では、右側のを無視できることがわかります。Θ FXΘXθθMAPFΘ|Xθ|Xθ[FXX]-11FX|ΘX|Θ=θFΘθ

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1(1)両方で 乗法定数を無視できるように、乗法定数として。同様に、対数尤度が使用されている場合、加算定数は無視できます。fXΘ(xΘ=θ)fΘ(θ)

この考え方は、ベイズを介して行うこともできます。ベイズの定理にまたはを入れても問題ない場合、はキャンセルされるため、事後は同じになります。のL ALaLa
kjetil bハルヴォルセン

5

素人の言葉で言えば、あなたはしばしば最尤を探し、とは同じ臨界点を共有します。k f x f(x)kf(x)


3
そうと、彼らは同等の尤度関数ではないでしょうf x + 2f(x)f(x)+2
ヘンリー・

Alecos Papadopoulosが彼の答えで書いているように、「尤度は最初に共同確率密度関数である」と書いてください。ランダムサンプルのiid​​の仮定により、そのジョイント関数は単純な密度関数のであるため、乗法因子が発生し、加数は発生しません。
セルジオ

1
データが独立している場合にのみ、共同関数はそのような製品です。ただし、MLEは従属変数に拡張されるため、製品の引数は納得できません。
whuber

1

尤度関数の定数項(つまり、パラメーターを含まない項)が見えないようにすることをお勧めします。既に述べたように、通常の状況では、これらは尤度のに影響しません。だが: argmax

天井の影響を受ける可能性を最大化する必要がある場合は、通常とは異なる状況になる可能性があります。その場合、値の計算に定数を含めることを「覚えておく」必要があります。

また、プロセス内の尤度の値を使用して、ネストされていないモデルのモデル選択テストを実行している可能性があります。モデルはネストされていないため、2つの尤度には異なる定数があります。

これらとは別に、文

「尤度は比例の乗法定数(または対数尤度の加法定数)までしか定義されないため」

間違った可能性があるので、最初の同時確率密度関数だけで「任意の」目的関数を最大化することがないように、。


3
うーん...ベイジアンの帽子をかぶっているとき、私は常に尤度関数を、結合確率密度関数としてではなく、パラメーターを与えられたデータの条件付き密度関数と考えました。データとパラメータの結合確率密度の最大値の位置(未知のパラメータ関数として、固定されているデータ)は、最大の事後確率(MAP)推定値を与えますか? ?θθθ
ディリップサルワテ

3
言語にもう少し注意する必要があると思います。尤度は、固定サンプルのパラメーターの関数ですが、サンプル空間でのジョイント密度に相当します。つまり、 これはに統合するサンプル空間に、必ずしもではないパラメータ空間上で統合されたとき。「尤度は密度であり、パラメータの関数として表示される」と言うと、「パラメータに関する密度」を意味するように聞こえますが、そうではありません。1 1
Lθバツ=fバツθ
11
ヘロパプ

1
@heropupすでに書いたように、それは必ずしもパラメーター空間を統一するものではないので、すぐに「パラメーターの関数」として見たときに「密度関数」と見なすことはできません。
アレコスパパドプロ

1
はい、知っています。私のポイントは、「尤度関数は密度関数であり、パラメータの関数として見られる」というフレーズ自体が紛らわしいということです。「尤度関数は、固定されたサンプルのパラメーターの関数であり、サンプル空間の関節密度と同等(または比例)です」などと言う方が正確です。
ヘロパプ

1
@heropup「尤度関数...は、サンプル空間のジョイント密度に等しい(または比例する)」という希望するステートメントは、実際にははるかに正確ですが、等しく不正確です。「比例係数」は定数ではないため、尤度関数はジョイント密度と等価でも比例でもありません(未知のパラメーターの事前分布が間隔全体に均一に分布していない限り)。ジョイント密度はここで、は尤度で、はパラメーターの事前分布です。LのF θ LバツθfθLfθ
ディリップサルワテ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.