最尤推定を理解するにはどのくらいの計算が必要ですか?


11

MLEを学ぶための学習計画を立てようとしています。これを行うために、MLEを理解するために必要な微積分の最小レベルを理解しようとしています。

MLEを理解するには、微積分の基本(つまり、関数の最小値と最大値を見つける)を理解するだけで十分ですか?


2
いつものように、それは依存します。基本のみを理解しようとしている場合は、関数の極値を見つけることができるため、公平な方法が得られます(MLEの多くの実際的なケースでは、Lは数値的にMですが、その場合、他のスキルも必要です)いくつかの基本的な微積分として)。
Glen_b-2013

ありがとう。あなたが言及したケースをより詳細に説明できますか?それは面白そう。
ヒステルハイム2013

大丈夫ですが、今私はそれを答えにする必要があります。待って。
Glen_b-2013

回答:


20

私のコメントを拡大する-それは依存します。基本のみを理解しようとしている場合は、関数の極値を見つけることができるため、公平な方法が得られます(MLEの多くの実際的なケースでは、可能性が数値的に最大化されます。その場合、他のスキルといくつかのスキルが必要です。基本的な微積分)。

明示的な代数解が得られる素敵な単純なケースは別にしておきます。それでも、微積分は非常に便利です。

ずっと自立するつもりです。1パラメータ最適化の最も単純なケースを考えてみましょう。最初に、導関数を取得し、パラメーターの関数と統計を分離できる場合を見てみましょう。

密度を考えますGamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

次に、サイズサンプルの、尤度はn

L(α;x)=i=1nfX(xi;α)

したがって、対数尤度は ここで、です。デリバティブを取って、

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

したがって、これをゼロに設定してを解こうとすると、次のようになります。 α^

ψ(α^)=lnG(x)

ここで、はディガンマ関数であり、は幾何平均です。一般に、導関数をゼロに設定するだけでなく、argmaxを見つけられると確信できないことを忘れてはなりません。ソリューションが最大であることを何らかの方法で示す必要があります(この場合は最大です)。より一般的には、最小値または水平方向の変曲点が得られる可能性があります。また、極大値がある場合でも、大域的最大値(最後に触れます)がない場合があります。ψ()G()

したがって、ここでのタスクは、値を見つけることです。α^

ψ(α^)=g

ここで、です。g=lnG(x)

これは、基本的な関数に関しては解決策がありません。数値で計算する必要があります。少なくとも、一方のパラメータの関数ともう一方のデータの関数を取得することができました。方程式を解く明確な方法がない場合に使用できるさまざまなゼロ検出アルゴリズムがあります(たとえば、導関数がなくても、バイナリセクションがあります)。

多くの場合、それはそれほど良くありません。単位スケールのロジスティック密度を考え: 尤度のargmaxも、対数尤度関数のargmaxも、代数的に容易に取得することはできません。数値最適化手法を使用する必要があります。この場合、関数はかなり適切に動作し、ニュートンラフソン法は通常、 ML推定値を見つけるのに十分です。導関数が利用できない場合、またはニュートンラフソンが収束しない場合は、ゴールデンセクションなど、他の数値最適化手法が必要になることがあります(これは、利用可能な最良の手法の概要を示すものではなく、いくつかの手法についてのみ言及しています)基本的なレベルで遭遇する可能性があります)。

f(x;μ)=14sech2(xμ2).
μμ

より一般的には、それほど多くのことを実行できない場合もあります。中央値がで単位がスケールのコーシーを考えます。θ

fX(x;θ)=1π(1+(xθ)2).

一般に、ここでの可能性には固有の極大値はありませんが、いくつかの極大値があります。極大値が見つかっ場合、別の場所に別の大きな値がある可能性があります。(時々、人々は中央値に最も近い局所最大値、またはそのようなものを特定することに集中します。)

初心者にとって、関数のargmaxを持つ凹型のターニングポイントを見つけた場合、複数のモード(既に説明)に加えて、ターニングポイントにまったく関連付けられていない最大値が存在する可能性があると考えるのは簡単です。導関数を取得してゼロに設定するだけでは不十分です。たとえばユニフォームのパラメーターを推定することを検討してください。(0,θ)

他の場合では、パラメーター空間は離散的である場合があります。

時々最大値を見つけることはかなり複雑かもしれません。

そして、それは単一のパラメータに関する問題のほんの一部です。複数のパラメーターがある場合、物事は再び複雑になります。


4

はい。もちろん、1次元の関数について話しているのではなく、関数を最大化する(つまり、可能性)ため、これは1次元関数よりも少し進んでいます次元のケース。RpR

尤度の対数を最大化することは、通常、尤度そのものを最大化するよりもはるかに簡単であるため、対数を持ついくつかの機能は間違いなく役立ちます。

関数の2次導関数、つまりヘッセ行列を処理できれば、単純なMLE(情報行列など)よりもはるかに多くを理解できます。RpR

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.