最大尤度は再パラメーター化不変ではありません。それで、どうやってそれを使うのが正当化できるのでしょうか?


7

max-likelihood推定量について私を混乱させる何かがあります。私がいくつかのデータとパラメータの下の可能性を持っていると仮定しますμ です

L(D|μ)=e(.7μ)2

これは、スケーリングまでのガウスの可能性として認識できます。今私の最尤推定量は私にくれますμ=.7

今、私はそれを知らず、代わりにパラメータを操作していたとしましょう t そのような μ=sin(t)。また、これはすべて数値であり、次の可能性がどのように愚かに見えるかはすぐにはわかりません。

L(D|t)=e(.7sin(t))2

今、私は最大の可能性を解決し、追加のソリューションを取得します。これを確認するために、以下にプロットします。

ここに画像の説明を入力してください

したがって、この観点からすると、max-likelihood は再パラメーター化不変ではないため、愚かなことのように思えます。何が欠けていますか?

可能性は常に測度とともに来るため、ベイズ分析は当然これを処理します。

L(D|μ)P(μ)dμ=L(D|μ(t))P(μ(t))dμdtdt

応答とコメントの後に部分を追加(2018年3月16日に追加)

上の2つの最大値が t1,t2 対応する .7=sin(t1)=sin(t2)。彼らは同じ点を特定しています。以下の議論と回答が意味をなすように、私は上記を守りました。しかし、私が理解しようとしている問題のより良い例を以下に示します。

取る

L(D|μ)=e(aμ)2

ここで、パラメータを再設定するとします μ=μ(t) 次に、最大尤度を行います t 私は得る

Lt=Lμμt

私が最大化して得た場所以外の場所で最大値が必要な場合 μ 私は求める

Lμ0

そして

μt=0,Lμ2μt2<0

したがって、私は簡単な例をとることができます

μ=b(ab)t2+t3

以下の結果をプロットします。私たちはそれをはっきりと見ることができますμ=a は、グローバルな最大値です(最大化する場合は1つだけです)。 μ)しかし、別の極大値も t=0 に関して最大​​化するとき t

ここに画像の説明を入力してください

地図に注意してください μ(t)全単射ではありませんが、なぜそうする必要があるのか​​わかりません。また、少なくともこの例では、グローバルな最大値は常にμ=a しかし、常連主義者の観点から、私はある種の加重平均の1 / 1.6の μ=a および.6 / 1.6 of μ=b (これは t=0)私が完全に働いていた場合 t スペース?


11
逆に、解不変です。正しい定式化は、すべての値t 最小化する L(μ(t)) の値に対応 μ 最小化する L(μ)-これは、表記法だけで明らかなはずです。この結果が保持されるかどうかは問題ではありませんμ結局のところ、説明するのは、可能性が最も大きい分布に名前付ける方法だけなので、可逆、1対1、連続、またはその他のすべてです。「他の名前のバラは、甘い香りがします。」
whuber

私の例は良くなかったので、編集する必要がありました。新しい例はL=e(aμ)2 そして μ=b(ab)t2+t3。これにより、追加の「ローカル」最大値がt=0。可能性は二峰性ではないので、加重平均を取るべきではありませんか?もしそうなら、これはソリューションを不変ではないようにします。
Borun Chowdhury

@whuber可能性はスカラーであるため、別の名前のバラが甘い香りを放つように、再パラメーター化のもとでグローバルマキシマは不変であることに同意します。私は、いくつかの極大値を生成し、加重平均を取らないことの正当性についてさらに話していました。
Borun Chowdhury

結局のところ、数値ではなく分布を記述しているため、平均値は必ずしも意味を成しません。多対1の変換では、すべての最大値が同じ分布に対応するため、同じ分布をそれ自体で「平均化」する必要がありますが、これらの分布に割り当てた数値の「名前」の平均は意味がありません。
whuber

回答:


15

グラフを見ると、 t^{0.7753975,2.346194} のMLEでかなり合理的な推測です t。これらの値をsin 戻る関数 μ 結果は μ^={0.7,0.7} または 0.7、それがあるべきように。したがって、MLEの間に不一致はありません。μ とのM​​LE t

何が起こっているのですか μtそれは1-1ではありません。この場合、真の値はμ 複数の値にマップ tなので、驚くことではありませんが、 t。ただし、以前に制限されていなかった場合を除き、これはベイジアン分析を行っていた場合も同じです。t 間隔に [π/2,π/2)またはそのようなもの。そうした場合、比較可能性のために、MLEの範囲を制限する必要があります。t 同じ範囲で、その場合、尤度関数の複数の最大値を取得できなくなります。

ETA:振り返ってみると、私は例による説明に焦点を合わせすぎており、根本的な原理には十分ではありませんでした。この点に関するOPへの応答として、@ whuberのコメントよりも良いことはほとんどありません。

一般に、パラメータがある場合 θ および関連するMLE θ^、そしてあなたは関数を構築します θ=f(t)、代替パラメーターを効果的に作成しました t。のMLEt、それにラベルを付ける t^、の値になります t そのような f(t)=θ^、つまり、 f(t^)=θ^


私の例は、私が期待していたものとまったく同じではないことに同意します。帰り道で気づきました。より良い例はμ=bt2+t3。ここで最大値を取得しますt マッピングしない μ=.7 (応じて b)。それにもかかわらず、それはまた全単射ではありません。
Borun Chowdhury 2018

パラメータ化が全単射でなければならない理由がわかりません。実際、同じ答えを出すためにどのパラメーター化を実行できるかを尋ねているのではなく、再パラメーター化不変でない場合に最大尤度が使用される理由を尋ねています。
Borun Chowdhury 2018

私の最良の考えのいくつかはラッシュアワーの交通で行われます...あなたは思いつくことができますか μb そして t そのため μ=bt2+t3 プラグインすると、尤度関数の値が異なります μ 差し込むときよりも bt2+t3 代わりに μ?私はそうではないと思います...上記の@whuberのコメントを参照してください。
jbowman

関数の1-1ではない性質に関する私のポイントは、関数がまったく機能しないということではありません。それが、尤度関数のマルチモダリティの原因であるということです。 t (まあそれとその関数はで1-1ではありません μ、これは明らかにより制限的です。)
jbowman '15

上記の例を含むように編集しました。私が取ったμ=b(ab)t2+t3。その後、限りab 追加の「ローカル」最大値があります t=0(μ=b)。極大であっても、その高さは同等であるため、最大尤度は次の加重平均でなければなりません。μ=a,b(私はそれが二峰性の最大尤度のために行われていることだと思います)。
Borun Chowdhury

1

私の以前の答えは全単射の必要性について完全に明確ではなかったので(私の答えは単に間違っていると主張することができました)。私は再パラメータ化の全体についていくつかの調査を行いましたが、これが私が見つけたものです。@whuberと@jbowmanの両方が同じもののいくつかに触れています。

理論

したがって、理論的には、最尤推定量は θ^ 尤度関数の L(θ)、再パラメータ化に対して不変です。だから、あなたはいくつかの既知の機能を持っているとしましょうg、再パラメータ化 θλ=g(θ) (ここでの寸法 θ そして λ 必ずしも同じではありません)。次に、2つの事実が当てはまります。

  • 最大化 L(θ) に関して。 θ、つまり、MLEを見つける、 θ^、次にそれを再パラメータ化し、 g(θ^)、のMLEを生成します λ^。要するに、λ^=g(θ^)
  • さらに、 g 逆、最大化があります L(g1(λ)) に関して。 λ、つまり、MLEを見つける λ^ 同じ最大値を生成します θ^。のMLEθ です θ^=g1(λ^)

これらの2つのサブケースで不変性を分割することは少し不自然に思えるかもしれませんが、それらは再パラメーター化の2つの異なるユースケースを表すので便利です。

実際には

最初のユースケースは、何らかの方法で何らかの方法でMLEを識別できる場所ですが、実際にはその変数の特定の変換が必要です。たとえば、あなたは推定者を持っています、σ^, パラメータ用 σ 正規分布では、実際には分散のMLEに関心があります σ2。次に、不変性の原理を使用して、単純にσ-MLE、 σ2^=(σ^)2

2番目の使用例は、尤度関数を最大化するための勾配降下法やニュートンラフソン法などの数値アルゴリズムを使用する場合です。たとえば、パラメータを推定したいとしますσ2正規分布から。パラメータは定義により厳密に正ですが、数値手順では制約を作成できません。まあ、あなたは不変性プロパティを使用して設定することができますσ2=exp(λ) アルゴリズムを変えましょう λ の代わりに σ2、このようにして、 σ2ポジティブを保ちます。指数は全単射ですが、これは厳密には必要ありません。私たちは使うことができたσ2=λ2 代わりに、これは全単射ではありません。しかし、バイジェクションを使用する方が実用的です。σ2λ ユニークな方法で戻ってきました。

手続き

のMLEを定義するには λより正式には、いわゆるプロファイル尤度関数次のように定義する必要があります。

L(λ)=supθ|λ=g(θ)L(θ).

だから、与えられた λ-valueプロファイルの尤度値。すべての上限です θそれを確実にする g(θ) 等しい λ

プロファイル尤度を定義すると、次のMLEを定義できます λλ^、最大化する値として L(λ)

これらの定義が整っていると、再パラメーター化の不変性は次のようになります。

L(λ^)=L(θ^)

これは、

L(λ^)=maxλL(λ)=maxλsupθ|λ=g(θ)L(θ)=supθL(θ)=maxθL(θ)

私がそれを仮定したところ L(θ) 最大があります。

再パラメータ化が全単射の場合、つまり可逆である場合、 L(λ) 単に L(g(θ)) それぞれから θ 一意にマップする λ、したがって、「すべて」の上限 θユニークに崩壊するだけです L(θ)。それで、私たちはそれを得ます、

L(λ)=L(g(θ))L(g1(λ))=L(θ)
それゆえ、

θ^=g1(λ^).
参照:

MLEの不変性プロパティ:のMLEとは θ2 通常の X¯2

http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf

http://www.stat.unc.edu/faculty/cji/lecture7.pdf

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Functional_invariance

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.