これは、対数尤度にとって本当に便利なだけであり、それ以上のものではありません。
合計と製品の利便性を意味します:、合計は微分や積分など多くの点で扱いやすいです。指数関数的な家族だけにとっては便利ではない、と私は言いたい。ln(∏ixi)=∑ilnxi
ランダムなサンプルを扱う場合、尤度は次の形式になります:L=∏ipiであるため、対数尤度はこの製品を代わりに合計に分解するため、操作と分析が容易になります。気にするのは最大点だけで、最大値は重要ではないので、対数などの単調な変換を適用できます。
曲率直観について。最終的には対数尤度の2次導関数と基本的に同じです。
y=f(x)
κ=f′′(x)(1+f′(x)2)3/2
対数尤度の2次導関数:
A=(lnf(x))′′=f′′(x)f(x)−(f′(x)f(x))2
最大点では、一次導関数は明らかにゼロであるため、次のようになります。
したがって、尤度と対数尤度の2次導関数は同じものです。
κmax=f′′(xmax)=Af(xmax)
一方、尤度の1次導関数が最大点だけでなくその周辺でも小さい場合、つまり尤度関数がフラットな場合、
現在、フラットな尤度は数値的に最大値を見つけるのを難しくするため、フラット尤度は良いことではありません。また、最大尤度は周囲の他のポイントよりも良くありません。つまり、パラメータ推定誤差が高くなります。
κ≈f′′(x)≈Af(x)
また、曲率と2次導関数の関係がまだあります。では、なぜフィッシャーは尤度関数の曲率を見なかったのでしょうか?同じ理由で便利だと思います。積ではなく和のため、対数尤度を操作する方が簡単です。そのため、対数尤度の2次導関数を分析することにより、尤度の曲率を調べることができます。方程式は曲率に対して非常に単純に見えますが、実際には、2次導関数の合計よりも厄介な積の2次導関数を使用しています。κmax=f′′(xmax)
更新2:
これがデモンストレーションです。(完全に構成された)尤度関数、そのa)曲率、およびb)その対数の2次導関数を描画します。左側には狭い可能性があり、右側には広い可能性があります。最大尤度a)およびb)のポイントで、どのように収束するかがわかります。さらに重要なことは、対数尤度の2次導関数を調べることにより、尤度関数の幅(または平坦性)を調べることができることです。前に書いたように、後者は前者よりも技術的に簡単に分析できます。
当然のことながら、対数尤度信号の2次導関数の深さは、その最大値の周りで平坦な尤度関数になります。
プロットを再現する場合のMATLABコード:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
更新3:
上記のコードでは、任意のベル型関数を曲率方程式にプラグインし、その対数の2次導関数を計算しました。私は何も再スケーリングしませんでした。値は、先ほど述べた等価性を示すために、方程式から直接のものです。
ここだ Mathmaticsの可能性に非常に最初の論文は、フィッシャーは、「周波数曲線をフィッティングするために絶対的な基準に」、大学にいる間はまだ発表されていることメッセンジャー、41:155〜160(1912)
私がずっと主張していたように、彼はエントロピーや他の凝った主題へのログ確率の「より深い」接続については言及していませんが、彼はまだ彼の情報基準を提供していません。彼は、p.54 に単に式置いてから、確率の最大化について話します。私の意見では、これは、彼がジョイント確率自体を分析する便利な方法として対数を使用していたことを示しています。それは彼がP.55に明白な式を与えるための連続カーブフィッティング、に特に有用である:
幸運、この可能性を分析する(または確率ごとなどをフィッシャー)ログなし!logP′=∑n1logp
logP=∫∞−∞logfdx
P
論文を読むとき、彼が最尤推定作業から始めただけであり、その後の10年間でより多くの作業を行ったため、MLEという用語はまだ造られていません。