モーメント法が小さなサンプルで最尤法に勝てる例?


57

最尤推定量(MLE)は漸近的に効率的です。サンプルサイズが小さい場合でも、モーメント法(MoM)推定(それらが異なる場合)よりも優れていることが多いという点で、実際的な結果が見られます。

ここで「より良い」とは、両方がバイアスされていない場合の分散が通常小さいという意味で、より一般的には平均二乗誤差(MSE)が小さいことを意味します。

ただし、問題は発生します。

MoMがMSEで、たとえば小さなサンプルでMLEに勝てる場合はありますか?

(これは奇妙な/退化した状況ではありません-つまり、MLが存在する条件が与えられた場合/漸近的に効率的なホールドになる場合)

その場合、フォローアップの質問は「どれだけ小さいことができますか?」-つまり、例があれば、比較的大きなサンプルサイズ、おそらくはすべて有限のサンプルサイズでも保持されるものがありますか?

[有限サンプルでMLに勝てるバイアス付き推定器の例を見つけることができますが、MoMではありません。]


レトロスペクティブに追加された注:ここでの私の焦点は、主に単変量の場合(実際には、私の根底にある好奇心がどこから来ているか)です。多変量のケースを除外したくはありませんが、ジェームズ・スタイン推定の詳細な議論に迷いたくはありません。


問題ない; それは私たち全員に起こり、あなたよりも頻繁に私に起こります。おそらくタイトルに入れておくべきだったかもしれませんが、すでにかなり長いものでした。
Glen_b

@cardinal基準を明確にしました。
Glen_b

3
モーメント法が最尤法を「打つ」ことができる他の方法があります。たとえば、正規混合推定問題では、MLEは計算が難しいことで有名ですが、MoMはそうではありません。
vqv

@vqv確かに、これはMoMが望ましいという意味です。
Glen_b

2
私はplebeiansに共感する傾向があるので、私は、IID制服のサンプル中のことを通知のためのMoM推定サンプルのサイズである場合貴族(MLE)と同一のMSEを持つ、又は ...しかし、悲しいかな、より大きなサンプルサイズのために、貴族は再び彼の主権を主張する...θ 1 2U(0,θ)θ12
Alecosパパドプロス

回答:


36

これは...不正行為と見なされますが、OLS推定器はMoM推定器です。標準の線形回帰仕様(確率的リグレッサを使用しているため、マグニチュードはリグレッサ行列を条件としています)とサイズサンプルを検討してください。表すの分散のOLS推定量誤差項の。それは公平ですN S 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

MLEについて考えてみましょう。それはσ2

σ^ML2=nKns2
それは偏っていますか?そのMSEは

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
OLSに関してMLEを表現し、得られたOLS推定量の分散の式を使用して

MSE σ 2 MのL=2N-K+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

我々はしたい(存在する場合)する条件を

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2 N 2 - 4 N K + 2 K 2 + N K 2 - K 3 > 2 N 2 - 4 N + 2 、K + N K - K 2 > 0 K 2 -

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
単純化して この2次方程式が負の値を取得することは実行可能ですか?その判別式がポジティブであることが必要です。我々は における別の二次であり、今回。この判別式は ので、 が整数で あるという事実を考慮するために。場合K Δ K = N + 2 2 - 16 N = N 2 + 4 N + 4 - 16 、N = N 2 - 12 N + 4 、N Δ N = 12 2 - 4 2 = 8 16 N 1N 2 =
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnこの区間内に あり、の2次が常に正の値を取るため、必要な不等式を取得できません。したがって、12より大きいサンプルサイズが必要です。ΔK<0K

これが与えられると、次の根はK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

総合:サンプルサイズのためにと説明変数の数よう 我々は ためにたとえば、場合、不等式が成り立つには、リグレッサの数がでなければならないことがわかります。少数のリグレッサーの場合、MSEの意味でMLEの方が優れていることは興味深いことです。n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

補遺
の根の方程式 -quadraticを書き込むことができますK

K1,K2=(n2+1)±(n2+1)24n
ざっと見で私が考える下のルートが常にすることを意味する回帰が最大である場合MLE -SO(アカウントに「整数値」制限を取る)はMSE-効率的であろうの任意の(有限の)サンプルサイズのために。55

1
さて、仕様に付属する理論モーメント条件はです。のサンプルアナログを推定量として使用する程度、そうだと思います。E(uuX)=σ2E(uuX)σ2
アレコスパパドプロス

1
@AlecosPapadopoulos「サンプルアナログ」は分母にを使用する、つまりMLEと同じになると主張します。理論的な期待値を経験的な期待値に置き換えている場合、分母にれるのはどうしてでしょうか?自然モーメント条件はおよびあり、経験的期待値に置き換えると分母にが得られます。nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
男14年

2
@guy有効な発言です。私にとって、自由度の補正は常に、方法論の概念上の問題でした。すべての「サンプルアナログ」は、厳密な概念ではない、それは期待値とブタ漸近枠組みにおいて後者の漸近的な対応を介して「サンプル手段」の概念にリンクされた後、で割るの代わりにし違いはありません。私にとっては未解決の問題です。一方、最尤推定量は尤度方程式によって具体的に決定され、MoMと一致する場合と一致しない場合があります。(CONTD)nKn
アレコスパパドプロス

1
@guy(続き)。だから、何を言っていることは、この場合の誤差分散のMoMの推定量があることである最尤推定量、およびので、私が得た結果は、お母さんがMLでない比較が、OLSとML(後者は、独自のカテゴリです)。 ..はい、これは(また)そうであると主張することができます。
アレコスパパドプロ14

1
「the」MoM推定量などはありますか?それは、「MoM推定量」ですよね?ランダムに選択されたOLS残差場合、です。それは完全に良い瞬間の条件ですね。そして、に完全に良いMoMを提供しますか?つまり、通常のOLS推定量です。eE(e2)=nknσ2σ2s2
ビル14年

17

「この記事では、2パラメータの逆ガウス分布の新しいパラメータ化について検討します。モーメント法と最尤法により、逆ガウス分布のパラメータの推定量を見つけます。次に、バイアスと二乗平均誤差(MSE)に基づく2つの方法の推定値:このため、パラメーターの値を修正し、シミュレーションを実行し、両方の方法で得られた推定値のMSEとバイアスを報告します。モーメント法は、両方のパラメータ(ラムダとシータ)の推定値の最尤法よりも効率的である傾向があります。... "続きを 読む

現在、公開されているものすべてを信頼することはできません(またはすべきではありません)が、論文の最後のページは有望なようです。これが、遡って追加されたメモに対処することを願っています。


1
その記事の表を正しく理解していれば、あなたは正しいと思います-少なくとも推定において、いくつかのサンプルサイズでは、モーメント法(論文のMME)はMLEを上回っているようです。(ただし、シミュレーション結果の一部は少し奇妙に思えます-たとえば、p49の右端の列の進行)。これは、逆ガウス分布が比較的広く使用されているため、非常に興味深い結果です。θ
Glen_b

良い発見!結果がオフになっていても、どこかに明示的に述べられている主張を見るのは素晴らしいことです。
ベンオゴレク14年

私の回答でリンクした論文は修士論文から始まりました。修士論文は、すべてここで入手できます:digi.library.tu.ac.th/thesis/st/0415関連する声明については、セクション5.2を参照してください。完全な教授を含む6人がこの結果を承認しました。
冬眠

14

「一般化パレート分布のパラメーターと分位推定」でHosking and Wallis(1987)が実行したシミュレーションによると、cdfによって与えられる2パラメーター一般化パレート分布のパラメーター

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

または密度

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

MLではなくMOMを使用して推定される場合、信頼性が高くなります。これは、サイズ500までのサンプルに適用されます。MOMの推定値は、

β^=y¯y2¯2(y2¯(y¯)2)

そして

ξ^=12(y¯)22(y2¯(y¯)2)

y2¯=1ni=1nyi2

論文にはかなりのタイプミスが含まれています(少なくとも私のバージョンにはあります)。上記のMOM推定器の結果は、このスレッドの「heropup」によって親切に提供されました。


これをありがとう。これは、私がこれまで探していたものの最も単純な例の1つです。
Glen_b 14年

13

私は1つを見つけました:

非対称の指数分布の場合

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

Delicado and Goria(2008)のシミュレーション結果は、より小さなサンプルサイズの一部のパラメーターについて、モーメント法がMLEよりも優れていることを示唆しています。たとえば、サンプルサイズ10 の既知の場合、推定するとき、MoMのMSEはMLの場合よりも小さくなります。θσ

Delicado and Goria(2008)、
非対称指数分布の最尤法、モーメント法、Lモーメント法の小サンプル比較、
Journal Computational Statistics&Data Analysis
Volume 52 Issue 3、January、pp 1661-1673

http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdfも参照してください


13

一部の母集団モーメントのみを指定できる場合、モーメント法(MM)は最尤法(ML)アプローチに勝ることができます。分布が不明確な場合、ML推定量は一貫していません。

有限モーメントとiid観測を仮定すると、MMは優れた漸近特性を持つ優れた推定器を提供できます。

例:うのIID試料で、ここで、未知の確率密度関数です。定義モーメント番目および関心が示さモーメント推定することであると考える。X1,,XnXff:RR+νk=Rxkf(x)dxkν4

ましょう、その仮定することにより、中心極限定理を保証し、 ここで「」は「配布先への収束」を意味します。さらに、スルツキーの定理により、Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
以降確率(収束)。X8¯X4¯2Pν8ν42

つまり、モーメントアプローチ(大きなサンプルの場合)を使用して(概算)推論を描画できます。対象となる母集団のモーメントについていくつかの仮定を行う必要があります。ここで、最尤推定量はの形状を知らないと定義できません。 Fν4f

シミュレーション研究:

パトリオタ等。(2009)いくつかのシミュレーション研究を実施して、変数内エラーモデルでの仮説検定の棄却率を検証しました。結果は、MMアプローチが、小さなサンプルのMLよりも名目レベルに近い帰無仮説の下でエラー率を生成することを示唆しています。

歴史的注記:

モーメントの方法は、1894年にK.ピアソンによって「進化の数学理論への貢献」として提案されました。最尤法は、1922年にRA Fisherによって「理論統計の数学的基礎について」提案されました。どちらの論文も、ロンドン王立協会の哲学的トランザクション、シリーズAに掲載されています。

参照:

フィッシャー、RA(1922)。理論統計の数学的基礎、ロンドン王立協会の哲学的トランザクション、シリーズA、222、309-368。

パトリオタ、AG、ボルファリン、H、デカストロ、M(2009)。方程式誤差を含む不均一な構造変数の変数モデル、Statistical Methodology 6(4)、408-423(pdf

ピアソン、K(1894)。進化の数学理論への貢献、ロンドン王立協会の哲学的トランザクション、シリーズA、185、71-110。


1
あなたの答えは、潜在的に興味深いもののように聞こえます。少し拡張できますか?よく見えるかどうかわかりません。
Glen_b

@Glen_bお願い、私の最後の追加があなたを助けるかどうか確かめてください。
アレクサンドルパトリオタ14年

それをありがとう。私はあなたが得ているものを見ると信じています。
Glen_b

OK、それは一般的なコメントですが、あなたの質問に答えると思います。データの動作に関する完全な情報を提供する場合、MLアプローチがMMアプローチよりも優れていることはごく自然です。論文[1]では、変数の誤差モデルにおける仮説検定の棄却率を検証するために、いくつかのシミュレーション研究を実施しています。この結果は、MMアプローチが、小さなサンプルのMLよりも名目レベルに近い帰無仮説の下でエラー率を生成することを示唆しています。[1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
アレクサンドル

これは、モーメント法(MoM)の非典型的な例です。MoMは通常、パラメトリック推定の問題に展開されます。この問題には、明確に定義された分布のパラメトリックファミリがあります。一方、ここでノンパラメトリック最尤推定を定義できます。経験的分布関数、たとえばF-hatは、未知の分布関数Fのノンパラメトリック最尤推定値です。4番目のモーメントをFの関数と考えると、4番目のモーメントのノンパラメトリックMLEはF-hatの4番目のモーメントです。これは、サンプルの4番目の瞬間と同じです。
vqv 14年

5

MOMを支持する追加ソース:

Hong、HP、およびW. Ye。2014. 雪の深さ記録を使用したカナダの極端な地上雪荷重の分析。自然災害73(2):355-371。

サンプルサイズが小さい場合、MMLを使用すると非現実的な予測が得られる可能性があります(Hosking et al。1985; Martin and Stedinger 2000)。


Martins、ES、およびJR Stedinger。2000. 水文データの一般化最尤一般化極値分位推定量。水資源研究36(3):737-744。

抽象:

3パラメーター一般化極値(GEV)分布は、年間の洪水、降雨、風速、波高、雪の深さ、および他の最大値を記述するための幅広い用途が見つかりました。以前の研究では、パラメーターの小標本最尤推定量(MLE)が不安定であり、Lモーメント推定量が推奨されることが示されています。より最近の研究では、モーメント法の分位推定量の方法は、-0.25 <κ<0.30に対して、LモーメントおよびMLEよりも小さい二乗平均平方根誤差があることが示されています。小さなサンプルでのMLEの動作を調べると、GEV形状パラメーターκの不合理な値が生成される可能性があることがわかります。一般化最尤法(GML)分析でκ値を統計的/物理的に合理的な範囲に制限するためにベイズ事前分布を使用すると、この問題が解消されます。

イントロダクションおよび文献レビューのセクションでは、MOMがMLE(再び極端な値のモデリング)を上回る場合があると結論付けた追加の論文を引用しています。

Hosking et al。[1985a]は、小サンプルのMLEパラメーター推定器が非常に不安定であることを示し、Lモーメント推定器と同等の確率加重モーメント(PWM)推定器を推奨します[Hosking、1990]。[...]

Hosking et al。[1985a]は、GEV分布の確率加重モーメント(PM)または等価Lモーメント(LM)推定量が、15〜100の範囲のサンプルサイズのバイアスと分散に関して、最尤推定量(MLE)よりも優れていることを示しました。最近では、Madsen et al。[1997a]は、10〜50のサンプルサイズで100年イベントを推定する場合、-0.25 <K <0.30の場合、LMおよびMLEよりもモーメント法(MOM)分位推定器のRMSE(二乗平均平方根ror)が小さいことを示しました。MLEは、K> 0.3でサンプルサイズが控えめ(n> = 50)の場合にのみ推奨されます。

K(カッパ)はGEVの形状パラメーターです。

引用符で囲まれた論文:

Hosking J、Wallis J、Wood E(1985)確率加重モーメント法による一般化極値分布の推定。Technometrics 27:251–261。

Madsen、H.、PF RasmussenおよびD. Rosbjerg(1997)極端な水文学的事象をモデル化するための年間最大シリーズと部分継続シリーズの方法の比較、1、At-modelモデリング、Water Resour。Res。、33(4)、747-758。

Hosking、JRM、Lモーメント:順序統計の線形結合を使用した分布の分析と推定、JR Stat。Soc。、Ser。B、52、105-124、1990。


さらに、上記の論文で結論付けられたのと同じ経験があります。小規模および中程度のサンプルサイズ(通常は50-100未満)で極端なイベントをモデリングする場合、MLEは非現実的な結果を与えることができ、シミュレーションはMOMがより堅牢であり、より小さいRMSE。


3

これに答える過程で: 二項式のパラメーターの推定 私はこの論文につまずいた:

Ingram Olkin、A John Petkau、James V Zidek:二項分布のN個の推定量の比較。ジャサ1981。

これは、少なくともいくつかの場合、モーメント法が最尤法を破る例を示しています。問題は、両方のパラメーターが不明な二項分布での推定です。たとえば、すべての動物を見ることができないときに動物の数を推定しようとするときに表示され、目撃確率も不明です。Bin N p pNBin(N,p)p


この例の素晴らしい点の1つは、状況を伝えるのが非常に簡単なことです。多くの人が二項式に精通しています(少なくとも名前ではなくとも概念的に)。
Glen_b
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.