対数尤度対尤度を使用するための理論的動機


18

私は、統計学と確率論における対数尤度(そしておそらくより一般的には対数確率)の遍在性をより深いレベルで理解しようとしています。対数確率はあちこちに現れます。通常、分析(たとえば最大化)のために対数尤度を使用します。フィッシャー情報は対数尤度の2次導関数で定義され、エントロピーは期待される対数確率です。 、Kullback-Lieblerの発散には対数確率が含まれ、予想される逸脱は予想される対数尤度などです。

今、私は多くの実用的便利な理由に感謝しています。多くの一般的で有用なpdfは、指数ファミリからのものであり、対数変換されると用語がエレガントに簡素化されます。合計は、製品よりも扱いやすい(特に差別化のため)。対数プローブには、直線プローブよりも優れた浮動小数点の利点があります。PDFをログ変換すると、多くの場合、非凹関数が凹関数に変換されます。しかし、ログプロブの理論的な理由/正当化/動機は何ですか?

私の困惑の例として、フィッシャー情報(FI)を考えてみましょう。FIを直観するための通常の説明は、対数尤度の2次導関数が対数尤度の「ピーク」を示していることです。 、ほぼ平坦な対数尤度(低い曲率)は、多くの異なるパラメーター値が(対数尤度に関して)MLEとほぼ同じくらい良いことを意味するため、MLEはより不確実です。

これはすべてうまくいきますが、尤度関数自体の曲率を見つけることはより自然ではありませんか?一見、対数変換の強調はarbitrary意的で間違っているように見えます。確かに、実際の尤度関数の曲率にもっと興味があります。代わりにスコア関数と対数尤度のヘッセ行列を使用するフィッシャーの動機は何ですか?

答えは、最終的に、対数尤度から漸近的に素晴らしい結果が得られるという単純なものですか?たとえば、Cramer-RaoおよびMLE /後方の正常性。または、より深い理由がありますか?


回答:


13

これは、対数尤度にとって本当に便利なだけであり、それ以上のものではありません。

合計と製品の利便性を意味します:、合計は微分や積分など多くの点で扱いやすいです。指数関数的な家族だけにとっては便利ではない、と私は言いたい。ln(ixi)=ilnxi

ランダムなサンプルを扱う場合、尤度は次の形式になります:L=ipiであるため、対数尤度はこの製品を代わりに合計に分解するため、操作と分析が容易になります。気にするのは最大点だけで、最大値は重要ではないので、対数などの単調な変換を適用できます。

曲率直観について。最終的には対数尤度の2次導関数と基本的に同じです。

y=f(x)

κ=f(x)(1+f(x)2)3/2

対数尤度の2次導関数:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

最大点では、一次導関数は明らかにゼロであるため、次のようになります。 したがって、尤度と対数尤度の2次導関数は同じものです。

κmax=f(xmax)=Af(xmax)

一方、尤度の1次導関数が最大点だけでなくその周辺でも小さい場合、つまり尤度関数がフラットな場合、 現在、フラットな尤度は数値的に最大値を見つけるのを難しくするため、フラット尤度は良いことではありません。また、最大尤度は周囲の他のポイントよりも良くありません。つまり、パラメータ推定誤差が高くなります。

κf(x)Af(x)

また、曲率と2次導関数の関係がまだあります。では、なぜフィッシャーは尤度関数の曲率を見なかったのでしょうか?同じ理由で便利だと思います。積ではなく和のため、対数尤度を操作する方が簡単です。そのため、対数尤度の2次導関数を分析することにより、尤度の曲率を調べることができます。方程式は曲率に対して非常に単純に見えますが、実際には、2次導関数の合計よりも厄介な積の2次導関数を使用しています。κmax=f(xmax)

更新2:

これがデモンストレーションです。(完全に構成された)尤度関数、そのa)曲率、およびb)その対数の2次導関数を描画します。左側には狭い可能性があり、右側には広い可能性があります。最大尤度a)およびb)のポイントで、どのように収束するかがわかります。さらに重要なことは、対数尤度の2次導関数を調べることにより、尤度関数の幅(または平坦性)を調べることができることです。前に書いたように、後者は前者よりも技術的に簡単に分析できます。

当然のことながら、対数尤度信号の2次導関数の深さは、その最大値の周りで平坦な尤度関数になります。

ここに画像の説明を入力してください

プロットを再現する場合のMATLABコード:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

更新3:

上記のコードでは、任意のベル型関数を曲率方程式にプラグインし、その対数の2次導関数を計算しました。私は何も再スケーリングしませんでした。値は、先ほど述べた等価性を示すために、方程式から直接のものです。

ここだ Mathmaticsの可能性に非常に最初の論文は、フィッシャーは、「周波数曲線をフィッティングするために絶対的な基準に」、大学にいる間はまだ発表されていることメッセンジャー、41:155〜160(1912)

私がずっと主張していたように、彼はエントロピーや他の凝った主題へのログ確率の「より深い」接続については言及していませんが、彼はまだ彼の情報基準を提供していません。彼は、p.54 に単に式置いてから、確率の最大化について話します。私の意見では、これは、彼がジョイント確率自体を分析する便利な方法として対数を使用していたことを示しています。それは彼がP.55に明白な式を与えるための連続カーブフィッティング、に特に有用である: 幸運、この可能性を分析する(または確率ごとなどをフィッシャー)ログなし!logP=1nlogp

logP=logfdx
P

論文を読むとき、彼が最尤推定作業から始めただけであり、その後の10年間でより多くの作業を行ったため、MLEという用語はまだ造られていません。


5
最後の文章(曲率について)は、対数尤度について本当に根本的なものであり、ログを取得することは単なる「便利さ」ではないということです。ここでは、あなたがやっていることよりもはるかに多くのことが起こっていると思います。
whuber

2
曲率の​​議論は、対数尤度の分析と尤度自体の分析を区別しないため、関連性がないように見えます。この答えは「ログは便利」に帰着するように見えますが、他の答えが示唆し始めているように、問題にはそれ以上のものがあります。
whuber

@Aksakal OK、ありがとう、私は今これを見ると思います。尤度関数は、任意の乗法定数まで指定されます。したがって、最大値の尤度も任意です。たとえば、単位正規化尤度関数を使用するのが一般的です。その場合、尤度と対数尤度の2次導関数は最大で同等です。f(xmax)f(xmax)=1
-ratsalad

したがって、フィッシャー情報に対数尤度を使用すると、2つの実用的な目的が明らかになります。(1)対数尤度の方が扱いやすく、(2)任意のスケーリング係数を自然に無視します。そして、それは直線尤度の2次導関数と同じ答えを与えます。これは私にとって重要なポイントであるように思われますが、それは明らかではなく、どの統計テキストにも記載されていません。おそらくそれはフィッシャーに知られていました。
-ratsalad

f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))

5

追加のポイント。一般的に使用される確率分布のいくつか(正規分布、指数分布、ラプラス分布など)は、対数凹です。これは、それらの対数が凹であることを意味します。これにより、元の確率を最大化するよりも対数確率を最大化するのがはるかに簡単になります(これは、最尤法または最大事後法で特に便利です)。例を挙げると、ニュートンの方法を使用して多変量ガウス分布を直接最大化するには、放物面(多変量ガウス分布の対数)を最大化するのに1ステップしかかかりません。


2
そんなに早くない。web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdfの393-394
マークL.ストーン

それはログ凹ではありません。ガウスは、その分散または平均パラメーターに対して対数凹であり、分散に対しても対数凹ではありません。スケールも決定したい場合は、正規分布のガンマ分布を使用できます。これは、対数凹です(分散の代わりに精度を使用)。
ルカシティ

2
まさにこれ。ログがより便利な方法についてのすべての話は素晴らしいですが、凸性(または視点によっては凹面)は、ログの尤度を「正しい」作業として区別するものです。
メニローゼンフェルド

2
OPでlog-concavityについて既に言及したことに注意してください。しかし、これはまだ「便利」であり、ここでは対数凹の理論的な正当性はなく、いずれにしても対数尤度は一般に対数凹ではありません。
ratsalad

1
@ratsalad、はい、あなたは正しい、それは便利です。対数確率は確率関数を見るための追加の方法だと思います。どちらが優れているかは確かに言えません。[ en.wikipedia.org/wiki / ... measure)を見ると、ログ確率に効果的に機能するもの(ログ確率の差の期待値であるKL発散など)、確率に直接影響するもの(例:KS距離)。
ルカシティ

4

対数尤度の理論的重要性は、(少なくとも)2つの観点から見ることができます:漸近尤度理論と情報理論。

これらの初期のもの(私は信じている)は、対数尤度の漸近理論です。フィッシャーは、20世紀の支配に向かう過程で最尤法を設定した後、情報理論が順調に進んだと思います。

尤度理論では、放物線対数尤度は推論の中心的な位置を占めます。Lucien Le Camは、漸近理論における2次対数尤度の重要性の解明に重要な役割を果たしました

二次対数尤度がある場合、MLEの曲率は、パラメーターを推定できる精度を定性的に示すだけでなく、曲率の逆数に等しい分散で誤差が正規分布することもわかります。対数尤度がほぼ二次の場合、これらの結果はほぼ、または漸近的に成り立つと言います。

2番目の理由は、情報理論における対数尤度(または対数確率)の顕著性です。ここでは、情報量の測定に使用される主要な量です。

ggf(θ)f(θ^)θ^

lnL^

したがって、対数尤度は、有用な数値変換であることに加えて、推論および情報理論と深いつながりがあります。


情報理論による対数尤度の使用への言及は循環的です。なぜログ使用するのですか?おそらく同じ理由で、特に、情報理論が統計と比較して比較的新しい分野であると考える場合。
アクサカル

@Aksakalはい、いいえ。情報理論の基礎は、部分的に統計力学とエントロピーから得られました:en.wikipedia.org/wiki/Entropy。ボルツマンは、ミクロ状態の数の対数を使用してシステムのエントロピーを定義しました。ログを記録する理由 エントロピー/情報を追加するため(答えが指摘するように)?だから何?数値レベルでは、線形性/加法性により、線形代数の強力な方法の使用が可能になります。

1
@Aksakal、しかし、より基本的なレベルでは、加法性はエントロピー/情報をメジャーのようなものに変えます...質量に似ています。2つの統計的に独立したシステムを組み合わせる場合、組み合わされたシステムのエントロピーは各システムのエントロピーの合計です。:ここでは素敵な、説明者だphysics.stackexchange.com/questions/240636/...

1
@Bey熱力学統計エントロピーは、実際には、ミクロ状態のボルツマン分布と古典的な巨視的な熱から直接得られます(stat mechエントロピーの形式は「選択」ではありませんでした)。ボルツマン分布自体は、2つの前提の結果です:(1)エネルギーは任意の加法定数までしか指定されないという物理的特性、および(2)同じエネルギーを持つすべてのマイクロステートが同じ確率を持つという基本的な統計機構の仮定。そのため、最も深いレベルでは、熱エントロピーには対数問題が含まれます。これは、エネルギーが付加的であり、対数問題に比例するためです。
ratsalad

2
@ratsaladこれを拡張してくれてありがとう...ご覧のように、単純な「ログの方が簡単」を超えたログ尤度の説明は、かなり遠いものになります。Aksakalが与える理由のために、私は対数尤度を使用します...しかし、あなたのOPはより深い何かを求めました。統計と尤度理論に影響を与えた他の分野との関係を示す2つの例を挙げました。漸近的説明はより直接的であると思いますが、エントロピーと確率は、単なる数値の利便性を超えて、私たちが興味のある対数確率の事柄を作るようにリンクされています。

0

TLDR:微分演算子は合計に対して線形ですが、製品uでは製品ルールを実行する必要があるため、製品よりも合計を導出する方がはるかに簡単です。線形複雑度と高次多項式複雑度


3
これは、質問が「便利で実用的」という意味です。分析が対数尤度に焦点を当てるのは、それだけではなく、主要な理由でさえありません。たとえば、対数尤度ではなく尤度の観点からフィッシャー情報の表現がどのように見えるかを考えてください。
whuber

ええ、確かに。彼が直接「見つけやすい」と言ったとき、彼はこれの反対を意味すると思った。
チャーリーティアン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.