タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

2
ML推定器の不変性プロパティは、ベイジアンの観点から無意味ですか?
CasellaとBergerは、ML推定量の不変性を次のように述べています。 しかし、彼らは「可能性」を完全にアドホックで無意味な方法で定義しているように思えます。ηη\eta 私は、単純なケースwheterに確率論の基本的なルールを適用した場合、私の代わりに、次を得る: L (η | X )= P (X | θ 2 = η )= P (X | θ = - √η=τ(θ)=θ2η=τ(θ)=θ2\eta=\tau(\theta)=\theta^2 今、ベイズの定理を適用すること、およびその後、事実AとBは、我々は和ルール適用できることを相互に排他的でとてもある: P(X|A∨B)=P(xと) P (A ∨ B | X )L(η|x)=p(x|θ2=η)=p(x|θ=−η–√∨θ=η–√)=:p(x|A∨B)L(η|x)=p(x|θ2=η)=p(x|θ=−η∨θ=η)=:p(x|A∨B)L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)AAABBBp(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)} p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)\frac {p(A)\frac …


2
紙からの期待の最大化に役立つ:事前配布を含める方法?
質問は、「放射輸送-拡散結合モデルを使用した拡散光トモグラフィーにおける画像再構成」というタイトルの論文に基づいています。 リンクをダウンロード 著者は、未知のベクトルスパース正則化を使用してEMアルゴリズムを適用し、画像のピクセルを推定します。モデルは、l1l1l_1μμ\mu y=Aμ+e(1)(1)y=Aμ+ey=A\mu + e \tag{1} 推定はEq(8)で次のように与えられます μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=arg⁡maxln⁡p(y|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} 私の場合、私はを長さフィルターと見なし、はフィルターを表すベクトルです。そう、μμ\muLLLμμ\mathbf{\mu}L×1L×1L \times 1 モデルはように書き直すことができますy(n)=μTa(n)+v(n)(3)(3)y(n)=μTa(n)+v(n)y(n) = \mathbf{\mu^T}a(n) + v(n) \tag{3} 質問:問題の定式化:(n by 1)は観測されていない入力であり、は未知の分散付加ノイズを伴うゼロ平均です。MLEソリューションは期待値最大化(EM)に基づいています。μ(n)μ(n){\mu(n)}{e(n)}{e(n)}\{e(n)\}σ2eσe2\sigma^2_e 論文ではEq(19)は関数です-完全な対数尤度ですが、私の場合、完全な対数尤度式に分布を含める方法を理解できません。 AAAA,μA,μA, \mu 以前の分布を含め、 EMを使用した完全な対数尤度はどうなりますか?yyy

1
同じ方法を使用して線形回帰係数とロジスティック回帰係数を推定できないのはなぜですか?
機械学習の本を読んだところ、線形回帰のパラメーターは(他の方法の中でも)勾配降下法によって推定できる一方で、ロジスティック回帰のパラメーターは通常、最尤推定によって推定されます。 線形/ロジスティック回帰に異なる方法が必要な理由を初心者(私)に説明することは可能ですか?別名線形回帰の場合はMLEを使用せず、ロジスティック回帰の場合は勾配降下を使用しないのはなぜですか?

1
2変量混合分布を使用したEMアルゴリズムからの収束
与えられたデータと部分的に観測されたデータzのセットが与えられた場合の最尤推定量を見つけたい混合モデルがあります。Iは、Eステップ(の期待値計算両方実装しているZ所与のxと現在のパラメータθ kは、予想される所定の負の対数尤度最小にするために)、およびM-工程Zを。xxxzzzzzzxxxθkθk\theta^kzzz 私が理解しているように、最大​​尤度は反復ごとに増加しています。つまり、負の対数尤度は反復ごとに減少する必要がありますか?ただし、繰り返しますが、アルゴリズムは実際に負の対数尤度の値を減らしません。代わりに、減少と増加の両方が考えられます。たとえば、これは収束までの負の対数尤度の値でした。 ここに誤解したことがありますか? また、シミュレートされたデータの場合、真の潜在的な(観測されていない)変数の最尤を実行すると、ほぼ完全に適合し、プログラミングエラーがないことを示します。EMアルゴリズムの場合、特にパラメーターの特定のサブセット(分類変数の比率など)の場合、明らかに次善の解に収束することがよくあります。アルゴリズムが局所的な最小点または定常点に収束する可能性があることはよく知られています。従来の検索ヒューリスティックまたは同様に、グローバルな最小値(または最大値)を見つける可能性を高めるための検索があります。この特定の問題については、2変量の混合のうち2つの分布のいずれかが確率1の値を取るため、多くのミス分類があると思います(真の寿命は、ここで、 zはいずれかの分布に属していることを示します。インディケータ zはもちろんデータセットで打ち切られます。 T=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyzzzzzz 理論的なソリューション(最適に近いはず)から始めるときの2番目の数値を追加しました。ただし、ご覧のとおり、可能性とパラメーターは、このソリューションから明らかに劣っているソリューションに分岐しています。 xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i観測値が属する母集団の指標です(その2変量は0と1を考慮するだけでよいため)。 z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 f(t)=∑1i=0pif(t|z=i)=pf(t|z=1)f(t)=∑i=01pif(t|z=i)=pf(t|z=1)f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)および S(t)=1−p+pSz(t)S(t)=1−p+pSz(t)S(t) = 1 - p + pS_z(t) 可能性の一般的な形式を定義します。 L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τiL(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τi L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}} 現在、は場合に部分的にのみ観測され、それ以外の場合は不明です。完全な可能性はzzzδ=1δ=1\delta=1 L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τiL(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τi L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}} ここで、は対応する分布の重みです(おそらく、いくつかの共変量といくつかのリンク関数によってそれぞれの係数に関連付けられています)。ほとんどの文献では、これは次の対数尤度に簡略化されていますppp ∑(ziln(p)+(1−p)ln(1−p)−τi(ziln(p)+(1−zi)ln(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))∑(ziln⁡(p)+(1−p)ln⁡(1−p)−τi(ziln⁡(p)+(1−zi)ln⁡(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - …

1
「以前のフラット」のベイジアン推定は、最尤推定と同じですか?
系統学では、系統樹はMLEまたはベイズ分析を使用して構築されることがよくあります。多くの場合、ベイジアン推定ではフラット事前分布が使用されます。私が理解しているように、ベイズ推定は事前分布を組み込んだ尤度推定です。私の質問は、フラット事前分布を使用する場合、単純に尤度分析を行うことと何が違うのですか?

1
指数分布のML推定(打ち切りデータ付き)
生存分析では、rv 生存時間が指数関数的に分布していると想定します。私が持っていることを考えると、今のx 1、... 、X nは IID RVさんの"成果" X Iを。これらの結果の一部のみが実際に「完全に実現」されています。つまり、残りの観察結果はまだ「生きています」。XiXiX_ix1,…,xnx1,…,xnx_1,\dots,x_nXiXiX_i 分布のレートパラメーター ML推定を実行したい場合、実現されていない観測をコヒーレント/適切な方法でどのように利用できますか?推定に役立つ情報がまだ含まれていると思います。λλ\lambda 誰かがこのトピックに関する文献を教えてくれませんか?確かに存在します。しかし、トピックに適したキーワード/検索用語を見つけるのに苦労しています。

1
尤度関数の計算方法
3つの電子部品の寿命は、およびです。確率変数は、パラメーターを使用した指数分布からサイズ3のランダムサンプルとしてモデル化されています。尤度関数は、X1=3,X2=1.5,X1=3,X2=1.5,X_{1} = 3, X_{2} = 1.5,X3=2.1X3=2.1X_{3} = 2.1θθ\thetaθ>0θ>0\theta > 0 f3(x|θ)=θ3exp(−6.6θ)f3(x|θ)=θ3exp(−6.6θ)f_{3}(x|\theta) = \theta^{3} exp(-6.6\theta)、ここで。x=(2,1.5,2.1)x=(2,1.5,2.1)x = (2, 1.5, 2.1) そして、問題はを最大化するの値を見つけることによってMLEを決定するために進み。私の質問は、どのようにして尤度関数を決定するのですか?指数分布のpdfを調べましたが、違います。それで、問題の中で尤度関数は常に私に与えられますか?それとも自分で決定する必要がありますか?もしそうなら、どうですか?θθ\thetalogf3(x|θ)logf3(x|θ)log f_{3}(x|\theta)

2
一般化線形モデルによるパラメーター推定
デフォルトglmでは、Rで関数を使用する場合、反復再重み付け最小二乗(IWLS)メソッドを使用して、パラメーターの最尤推定を見つけます。さて、二つ質問があります。 IWLS推定は、尤度関数のグローバル最大値を保証しますか?このプレゼンテーションの最後のスライドに基づいて、私はそうではないと思います!それを確かめたかっただけです。 上記の質問1の理由は、ほとんどすべての数値最適化メソッドがグローバルな最大値ではなくローカルな最大値でスタックする可能性があるという事実のためであると言えるでしょうか?

2
EMアルゴリズムの練習問題
これは中間試験の練習問題です。問題はEMアルゴリズムの例です。(f)の部分で困っています。(a)から(e)までのパーツをリストアップして、前に間違えた場合に備えて完成させます。 ましょレートを持つ独立した指数確率変数もθ。残念ながら、実際のX値は観測されず、X値が特定の間隔内にあるかどうかのみが観測されます。ましょうG 1 、J = 1 { X J &lt; 1 }、G 2 、J = 1 { 1 &lt; X J &lt; 2 }、及びG 3 、J = 1 {X1,…,XnX1,…,XnX_1,\ldots,X_nθθ\thetaXXXXXXG1j=1{Xj&lt;1}G1j=1{Xj&lt;1}G_{1j} = \mathbb{1}\left\{X_j < 1\right\}G2j=1{1&lt;Xj&lt;2}G2j=1{1&lt;Xj&lt;2}G_{2j} = \mathbb{1}\left\{1< X_j<2\right\} (j=1、…、nの場合)。観測されたデータは( G 1 j、 G 2 j、 G 3 j)で構成されています。G3j=1{Xj&gt;2}G3j=1{Xj&gt;2}G_{3j} = \mathbb{1}\left\{X_j > 2\right\}j=1,…,nj=1,…,nj=1,\ldots,n(G1j,G2j,G3j)(G1j,G2j,G3j)(G_{1j},G_{2j},G_{3j}) …

1
最尤推定はどのようにして近似正規分布を持っていますか?
適合分布を生成する方法としてMLEについて読んでいます。 最尤推定値は「おおよその正規分布をしている」という声明に出くわしました。 これは、自分のデータと適合させようとしている分布のファミリーにMLEを繰り返し適用した場合、取得したモデルは通常の分布になることを意味しますか?一連の分布にはどの程度正確に分布がありますか?

4
サッカーのスコアのモデリング
Dixon、Coles(1997)では、彼らは(4.3)の2つの修正された独立したポアソンモデルの最尤推定を使用して、サッカーのスコアをモデル化しました。 パッケージを使用せずにアルファとベータ、およびホームエフェクトパラメーター(pg。274、表4)を "再現"するためにRを使用しようとしています(通常の独立したポアソンモデルを使用しても問題ありません)。bivpoisパッケージを使用してみましたが、パラメーターを変更する方法がわかりません。 誰かがRコードを使ってデータをモデル化できるように手助けしていただければ幸いです。英語プレミアリーグのシーズン2012/13のホームチームとアウェーチームのスコア。

2
均一な事前分布は、最大尤度と事後モードから同じ推定にどのようにつながりますか?
私はさまざまなポイント推定方法を研究していて、MAPとMLの推定を使用する場合、「均一な事前分布」を使用する場合、推定は同一であることを読みました。誰かが「均一」事前分布とは何かを説明し、MAP推定値とML推定値が同じになる場合のいくつかの(単純な)例を示すことができますか?

2
ポアソン分布の最尤の推定量の分散を見つける
場合パラメータでポアソン分布IIDされたβ Iは、最尤推定値であることが働いたβ(K 1、... 、K N)= 1K1,…,KnK1,…,KnK_1, \dots, K_nββ\betaデータのためのK1、...、Knは。したがって、対応する推定量T=1を定義できます。 β^(k1,…,kn)=1n∑i=1nkiβ^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_ik1,…,knk1,…,knk_1, \dots, k_n 私の質問は、この推定量の分散をどのようにして計算するのですか?T=1n∑i=1nKi.T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . 具体的には、各としてパラメータを持つポアソン分布以下β分布することを、ポアソンの特性から、私は知っているが、Σ N iは= 1 K iはパラメータを持つポアソン分布続くN βが、しかしの分布何T?KiKiK_iββ\beta∑ni=1Ki∑i=1nKi\sum_{i=1}^n K_inβnβn \betaTTT


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.