最尤法が機能するのはいつですか？

算術平均の計算などと比較して、最尤法について混乱しています。

最尤法は、例えば算術平均よりも「より良い」推定値を生成するのはいつですか？これはどのように検証可能ですか？

maximum-likelihood

— マバビリ
ソース

+1これは、統計的手順について尋ねるのに適した質問です。

— whuber

この質問はあまり明確ではないと思います。確かにOPは不明ですが、それが彼らが尋ねている理由です。MLEと算術平均の性質に関する問題は、適切な答えで解決する必要があります。

— GUNG -復活モニカ

「より良い」とはどういう意味ですか？そして、なぜ算術平均は任意のパラメーターの良い推定量になるのでしょうか？

— 西安

質問には、最初に「より良い」、つまり損失関数または推定量を比較できる別の基準の定義を設定せずに答えることはできません。たとえば、MLEは効率的です。つまり、漸近分散が小さい推定量が存在しないことを意味します（一定の規則性条件下）。また、たとえば、スタイン効果によって示されるように、MLEは許容できない場合があります。これは、サンプルの分布とパラメーターの次元に関する制約の下で、パラメーターのすべての値に対して2次リスクが小さい推定量が存在することを意味します。

— 西安

@ Xi'anそれは答えの基礎のようですね。

— whuber

回答:

算術平均ものの「自然な」推定量として聞こえるかもしれない、それはMLEに優先しなければならない理由は、一つは求めることができます！算術平均に関連付けられている唯一の確実な特性は、この期待値が定義されている場合、不偏推定量であることです。（反例としてコーシー分布を考えてください。）後者は実際、尤度関数の規則性条件下で幅広い特性を享受します。ウィキペディアのページから借りると、MLEは $\bar{x}$ $\mathbb{E}[X]$

一貫した
漸近的に正常
最小漸近分散を達成するという点で効率的
全単射変換での不変量
制約されたパラメーターセットでもパラメーターセット内

算術平均と比較して、これらのプロパティのほとんどは、十分に規則的な分布でも満たされています。4と5を除きます。指数族の場合、MLEと算術平均は、平均パラメーター化でパラメーターを推定するために同じです（他のパラメーター化ではありません）。また、MuchはCauchy分布からのサンプルに対して存在します。

ただし、ミニマキシムや許容性などの有限のサンプル最適性プロパティを使用すると、MLEがミニマックスでも許容値でもない場合があります。たとえば、Stein効果は、サンプルの分布とパラメーターの次元に対するいくつかの制約の下で、パラメーターのすべての値に対して2次リスクが小さい推定量が存在することを示しています。これがケースであると。 $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— 西安
ソース

mleについて明確にするために、リストされている5つのプロパティはすべて、母集団の想定モデルのコンテキスト内にあります。

— 確率論的

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

「算術平均の計算」を、モーメント法（MoM）を使用した推定として解釈してみましょう。メソッドは理論的なものの代わりにサンプル平均を使用するため、元の質問に忠実であると考えています。また、（任意のモデルからの）任意のパラメーターに関する@ Xi'anの懸念に対処します。

あなたがまだ私と一緒にいるなら、私は行くのに最適な場所は、瞬間の方法が小さなサンプルで最尤を打ち負かすことができる例だと思いますか？質問テキストは、「最尤推定量（MLE）は漸近的に効率的である;モーメント法（MoM）推定（それらが異なる場合）よりも優れていることが多いという実用的な結果を確認し、MoM推定量の特定のケースを探します。対応するMLEよりも小さい平均二乗誤差を達成します。提供されるいくつかの例は、線形回帰、2パラメーターの逆ガウス分布、および非対称の指数関数の電力分布のコンテキストです。

この「漸近的効率」という考え方は、最尤推定器がおそらくデータを最大限に使用して（問題のパラメーターを推定するため）近いことを意味します。これは一般的なモーメント法では得られない保証です。最尤法は常に平均値を使用するよりも「優れている」とは限りませんが、この効率性の特性（限界にある場合のみ）は、ほとんどの常連客にとって最適な方法です。もちろん、データセットのサイズの増加に伴い、平均の関数を使用して適切なターゲットを指し示している場合は、それを使用することを反論者は主張することができます。

— ベン・オゴレク
ソース

最尤法（ML）が最良のソリューションを提供しない有名な例がいくつかあります。Lucien Le Camの1990年の論文： "Maximum Likelihood：an Introduction" [1]を参照してください。メリーランド州。

私が最も気に入っている例は、とても簡単なので、これは次のとおりです。

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

私はあなたに答えを与えることで楽しさを台無しにしませんが、（驚くことではありません）MLを使用してこれを解決する2つの方法があり、異なるソリューションを提供します。1つは2乗残差の「算術平均」であり（予想されるとおり）、もう1つは算術平均の半分です。あなたは答えを見つけることができ、ここに私のGitHubページ。

— idnavid
ソース