なぜ最大尤度であり、予想尤度ではないのですか?


22

なぜパラメーターの最尤推定値を取得するのがそれほど一般的であるのに、予想尤度パラメーター推定値についてはほとんど聞いていません(つまり、尤度関数のモードではなく期待値に基づいています)。これは主に歴史的な理由によるものですか、それともより実質的な技術的または理論的な理由によるものですか?

最尤推定値ではなく予想尤度推定値を使用することには、大きな利点や欠点がありますか?

予想尤度推定日常的に使用される領域はありますか?


9
どの確率分布に関する期待値?MLは通常、(a)データが与えられ(固定され)、(b)パラメーターが(未知の)定数として扱われる非ベイジアン分析に適用されます。ランダム変数はまったくありません。
whuber

回答:


15

提案された方法(尤度を密度に正規化した後)は、モデル内のすべてのパラメーターに対してフラットな事前分布を使用し、推定値として事後分布の平均を使用してパラメーターを推定することと同等です。適切な事後分布が得られないため、フラット事前分布を使用すると問題が発生する場合があります。そのため、ここでその状況を修正する方法がわかりません。

ただし、ほとんどのコンテキストでは尤度は確率密度を構成せず、ランダムなものは何も残っていないため、この方法はあまり意味がありません。これは、推定値を取得するために事後の尤度に適用する操作としてこれを定式化することができますが、この推定器の頻度特性がどのように見えるかわかりません(推定値が実際に存在する場合)。

利点:

  • これは、MLEが実際に存在しない場合の推定値を提供できます。
  • あなたが頑固でなければ、それはあなたをベイジアン設定に動かすことができます(そして、それはおそらくこのタイプの推定値を推論する自然な方法でしょう)。わかりましたので、あなたの意見によってはこれは利点ではないかもしれません-しかし、それは私にとってです。

短所:

  • これも存在することを保証するものではありません。
  • 凸のパラメーター空間がない場合、推定値はパラメーターの有効な値ではない可能性があります。
  • このプロセスは再パラメーター化に不変ではありません。このプロセスは、パラメータにフラットを事前に設定することと同等であるため、それらのパラメータが何であるかが異なります(パラメータとしてを使用するのか、を使用するのか)σσ2

7
+1 パラメーターの均一な分布を仮定する際の大きな問題の1つは、MLパラメーターの問題は、パラメーターの再分散に対する解の不変性を利用することで再定式化されることが多いということです。したがって、パラメータが均一な分布を持っているかのように「期待」をすることは任意のアーティファクトであり、誤った意味のない結果につながる可能性があります。
whuber

1
いい視点ね!私もそれを言及するつもりだったが、残りを入力中にそれをもたらすことを忘れていました。
デイソン14

レコードの場合、最尤も再パラメーター化に対して不変ではありません。
ニールG 14

1
@NeilGはい、そうですか?たぶん、私たちは異なるアイデアに言及しています。あなたがそれを言うとき、あなたはどういう意味ですか?
デイソン14

おそらく間違いを犯したかもしれませんが、確率を表すパラメーターがあるとします。データは、パラメーターを使用してベータ分布尤度を誘導します。代わりにオッズを使用してモデルをパラメーター化した場合、同じデータはパラメータープライム尤度を誘導します。最初の場合、モードはです。第二の場合には、モードがあるの確率に対応する、。p[01]α=β=2o[0α=β=2121314
ニールG 14

12

理由の1つは、最尤推定が簡単だということです。パラメーターに対する尤度の導関数をゼロに設定し、パラメーターを解きます。期待値を取得するということは、各パラメーターに尤度を掛けることを意味します。

もう1つの理由は、指数族では、最尤推定が期待値の取得に対応することです。たとえば、データポイント を近似する最尤正規分布は、平均と2次モーメント持ちます。{バツ}μ=Eバツχ=Eバツ2

場合によっては、最尤パラメーターは期待尤度パラメーターと同じです。たとえば、上記の正規分布の期待尤度平均は、平均の事前分布が正規であり、正規分布の最頻値と平均が一致するため、最尤と同じです。もちろん、それは他のパラメーターには当てはまりません(ただし、パラメーター化する必要があります)。

最も重要な理由はおそらく、パラメーターの期待が必要な理由でしょうか?通常、モデルを学習していて、パラメーター値だけで十分です。単一の値を返す場合、返される可能性が最高ではないでしょうか?


6
あなたの最後の行に関して:たぶん-そうでないかもしれません。損失関数に依存します。私はジェイクのアイデアをいじったばかりで、X〜Unif(0、theta)の場合、ジェイクの方法が与えるmax(X)*(n-1)/(n-2)の方が良いようですMLEであるmax(X)よりもMSE(少なくともシミュレーションは、n> = 5の場合、これを意味します)。明らかにUnif(0、theta)の例は典型的ではありませんが、推定量を取得する他の妥当な方法があることを示しています。
デイソン14

4
@Dason 良い(つまり、許容可能な)推定量を見つけるための1つの標準的な(かつ強力な)頻度分析手法は、さまざまな事前分布のベイズ推定量を計算することです。(たとえば、ポイント推定に関するレーマンの本を参照してください。)そのような推定量の1つを再発見しました。
whuber

ニールに答えてくれてありがとう!微分によるパラメーター推定値の取得は、統合に比べて簡単であり、単純な問題(たとえば、ペンと紙のレベル、またはそれほど遠くない)にどのように当てはまるかは確かにわかります。しかし、数値的手法に頼らなければならないはるかに複雑な問題については、実際に統合を使用する方が簡単ではないでしょうか?実際には、MLEを見つけることは非常に難しい最適化の問題になります。積分を数値的に近似することは実際には計算的に簡単ではありませんか?それとも、ほとんどの場合、それは真実ではないでしょうか?
ジェイクウェストフォール14

@JakeWestfall:数値的手法を使用して、パラメータ空間にどのように期待しますか?巨大なパラメーター空間を持つ複雑なモデル空間では、各モデルの確率を評価すること(パラメーター設定)全体を統合することはできません。通常、Mステップでパラメーター推定が行われるEMを実行するため、各パラメーターは言うように「単純な問題」の1つであり、最尤パラメーターは十分な統計の単純な予想です。
ニールG 14

@NeilGまあ、Dasonは、私が議論している方法は(正規化後)フラットな事前のベイジアン推定と同等であり、推定として事後平均を使用することを指摘しています。それでは、「数値的手法を使用して、パラメータ空間にどのように期待するのでしょうか?」私はこれらの方法のいずれかを使用できると考えていたと思います:bayesian-inference.com/numericalapproximation
ジェイクウェストフォール14

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.