タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

1
線形ガウスカルマンフィルターの対数尤度パラメーター推定
n次元状態ベクトルの線形ガウス状態空間解析用に、カルマンフィルタリングを実行できるコードをいくつか作成しました(多くの異なるカルマンタイプのフィルター[情報フィルターなど]を使用)。フィルターはうまく機能し、いくつかの素晴らしい出力を得ています。ただし、対数尤度推定によるパラメーター推定は私を混乱させます。私は統計学者ではなく物理学者なので、親切にしてください。 線形ガウス状態空間モデルを考えてみましょう yt= Ztαt+ ϵt、yt=Ztαt+ϵt、y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt + 1= Ttαt+ Rtηt、αt+1=Ttαt+Rtηt、\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, ここで、は観測ベクトル、は時間ステップ状態ベクトルです。太字の量は、対象のシステムの特性に従って設定される状態空間モデルの変換行列です。私たちも持っていますytyty_{t}αtαt\alpha_{t}ttt η T〜N I D (0 、QはT)、α 1〜N I D (1、P 1)。ϵt〜N私D (0 、Ht)、ϵt〜N私D(0、Ht)、\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt〜N私D (0 、Qt)、ηt〜N私D(0、Qt)、\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1〜N私D (a1、P1)。α1〜N私D(a1、P1)。\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). ここで、です。ここで、初期パラメーターと分散行列を推測することにより、この一般的な状態空間モデルのカルマンフィルターの再帰を導出および実装しました\ mathbf …

1
AIC / BIC:順列は何個のパラメーターをカウントしますか?
モデル選択の問題があり、AICまたはBICを使用してモデルを評価しようとしているとします。これは、の実数値パラメーターを持つモデルの場合、簡単です。kkk しかし、モデルの1つ(たとえばMallowsモデル)に順列があり、実際の値のパラメーターではなく、実際の値のパラメーターがいくつかある場合はどうでしょうか。モデルパラメーターの尤度を最大化することもできます。たとえば、置換とパラメーター取得します。ただし、はAIC / BICの計算にカウントされますか?ππ\pipppππ\pi

1
RMSEから尤度を計算する
いくつかのパラメーターを使用して、軌道(時間の関数としてのx)を予測するモデルがあります。現時点では、予測された軌道と実験的に記録された軌道の間の二乗平均平方根誤差(RMSE)を計算します。現在、シンプレックス(matlabのfminsearch)を使用して、この差(RMSE)を最小化します。この方法はうまく適合しますが、いくつかの異なるモデルを比較したいので、RMSEを最小化するのではなく最尤推定を使用できるように尤度を計算する必要があると思います(そして、AICまたはBICを使用してモデルを比較します) )。これを行う標準的な方法はありますか?

2
標準誤差推定に使用されるプロファイル尤度のヘッセ行列
この質問はこれによって動機づけられます。私は2つのソースを調べましたが、これが私が見つけたものです。 A. van der Vaart、漸近統計: プロファイルの尤度を明示的に計算することはほとんど不可能ですが、その数値評価はしばしば実行可能です。次に、プロファイル尤度は、尤度関数の次元を減らすのに役立ちます。プロファイル尤度関数は、多くの場合、パラメトリックモデルの(通常の)尤度関数と同じ方法で使用されます。離れて推定した最大の彼らのポイントを取ることから、で二次微分の推定マイナス電子の漸近共分散行列の逆行列として使用されます。最近の研究は、この実践を検証しているようです。θ^θ^\hat\thetaθ^θ^\hat\theta J.ウォルドリッジ、断面およびパネルデータの計量経済分析(両方のエディションで同じ): 漸近特性を研究するためのデバイスとして、一般にすべてに依存するため、集中目的関数の値は制限されます。方程式(12.89)がiid関数の合計である設定は、特定の非線形パネルデータモデルから個々の特定の効果を集中させるときに発生します。さらに、集中目的関数は、一見異なる推定アプローチの等価性を確立するのに役立ちます。g(W,β)g(W、β)g(W,\beta)WWW Wooldridgeは、M推定器のより広いコンテキストで問題を説明しているため、最尤推定器にも適用されます。 したがって、同じ質問に対して2つの異なる回答が得られます。私の意見では悪魔は詳細にあります。一部のモデルでは、プロファイル尤度のヘッセを、一部のモデルでは安全に使用できます。条件を与える一般的な結果はありますか?

1
Firth Logistic Regressionの理論的理解を求めて
Firthロジスティック回帰(ロジスティック回帰で完全/完全または準完全な分離を処理する方法)を理解しようとしているので、他の人に簡単に説明できます。FLETHの推定がMLEにどのような変更を加えているかについて、だれかが軽duした説明を持っていますか? Firth(1993)を読みましたが、スコア関数に修正が適用されていることを理解しています。私は、補正の起源と正当化、およびスコア関数がMLEで果たす役割についてあいまいです。 これが初歩的な知識であれば申し訳ありません。私がレビューした文献は、私が持っているよりもはるかに深いMLEの理解を必要とするようです。

5
MLEとMAPの推定、どちらを使用するか
MLE =最尤推定 MAP =事後最大 MLEは直感的で素朴です。つまり、パラメーター(つまり、尤度関数)が指定された観測の確率でのみ始まり、観測と最もよく一致するパラメーターを見つけようとします。ただし、事前の知識は考慮されていません。 MAPはベイズの法則による事前の知識を考慮に入れるため、より合理的です。 ここに関連する質問がありますが、答えは完全ではありません。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d したがって、MAPの方がはるかに優れていると思います。そうですか?そして、いつどちらを使用すればよいですか?

3
モーメント法とは何ですか?それはMLEとどのように異なりますか?
一般的に、モーメントの方法は、観測されたサンプルの平均または分散を理論上のモーメントに一致させて、パラメーターの推定値を取得しているようです。これはしばしば指数関数的家族のMLEと同じであると私は収集しています。 しかし、尤度関数のモードを見つけるのは難しいかもしれませんが、モーメントの方法の明確な定義や、MLEが一般的に好まれるように見える理由を明確に説明することは困難です。 この質問MLEはモーメント法よりも効率的ですか?ドナルドルービン教授(ハーバード大学)からの引用によると、40年代以降、MLEがMoMを上回っていることは誰もが知っていますが、その歴史や理由について知りたいと思います。

1
モデルが正しくない場合でも、MLE推定は漸近的に正常かつ効率的ですか?
前提:これは愚かな質問かもしれません。私はMLEの漸近的性質に関する記述しか知りませんが、証明を研究したことはありません。もしそうなら、これらの質問をするつもりはないだろう、またはこれらの質問が意味をなさないことに気付くかもしれない...だから私に簡単に行ってください:) モデルのパラメーターのMLE推定量が漸近的に正常で効率的であると言うステートメントをよく見ました。文は通常次のように書かれています θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})としてN→∞N→∞N\to\infty ここでNNNサンプル数であり、II\mathbf{I}フィッシャー情報とでθ0θ0\theta_0パラメータ(ベクトル)である真値。さて、真のモデルへの参照があるので、これは、モデルが真でない場合、結果が保持されないことを意味しますか? 例:風速Vと加法ガウスノイズの関数として風力タービンからの出力をモデル化すると仮定し ます。PPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon 少なくとも2つの理由で、モデルが間違っていることを知っています。1)はVの3乗に本当に比例します。2)風速とは無関係な他の予測変数を無視したため、誤差は加法的ではありません(風速0では電力が生成されないため、β0は0でなければなりませんが、ここでは関係ありません)。今、風力タービンからの電力と風速のデータの無限データベースがあると仮定します。どんなサイズのサンプルでも好きなだけ描くことができます。私は1000個のサンプル、サイズ100、及び計算の各描画仮定β 100のMLE推定値β = (β 0、β 1PPPVVVβ0β0\beta_0β^100β^100\hat{\boldsymbol{\beta}}_{100})私のモデルの下でちょうどOLSが推定されるであろう(。私は、このようの分布から1000個のサンプルを持っている β 100。私は練習を繰り返すことができ、N = 500 、1000年、1500年、...。N → ∞の分布すべきである β Nは述べ平均と分散で、漸近的に正常である傾向がありますか?または、モデルが正しくないという事実がこの結果を無効にしますか?β=(β0,β1,β2)β=(β0,β1,β2)\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)β^100β^100\hat{\boldsymbol{\beta}}_{100}N=500,1000,1500,…N=500,1000,1500,…N=500,1000,1500,\dotsN→∞N→∞N\to\inftyβ^Nβ^N\hat{\boldsymbol{\beta}}_{N} 私が尋ねている理由は、アプリケーションではめったに(あるとしても)モデルが「真」であるということです。モデルが真ではないときにMLEの漸近特性が失われた場合、異なる推定原理を使用することは理にかなっている可能性があります。 編集:コメントでは、真のモデルの概念には問題がある可能性があると指摘されていました。モデルの家族与えられた:私は心の中で次のような定義を持っていたのパラメータベクトルでindicized θあなたはいつも書くことができ、家族内の各モデルについて、 fθ(x)fθ(x)f_{\boldsymbol{\theta}}(x)θθ\boldsymbol{\theta} Y=fθ(X)+ϵY=fθ(X)+ϵY=f_{\boldsymbol{\theta}}(X)+\epsilon 単純に定義することによってとしてY - F θ(X )。ただし、一般に、エラーはXに直交せず、平均0を持ち、必ずしもモデルの導出で想定される分布を持つとは限りません。値が存在する場合にはθ 0ようにεはこれら2つのプロパティだけでなく、想定分布を有しているが、私はモデルが真であると言うでしょう。私はこれを直接ことを言ってに関係していると思わF θ 0(X )= E [ Y | X ]、分解のエラー項ϵϵ\epsilonY−fθ(X)Y−fθ(X)Y-f_{\boldsymbol{\theta}}(X)XXXθ0θ0\boldsymbol{\theta_0}ϵϵ\epsilonfθ0(X)=E[Y|X]fθ0(X)=E[Y|X]f_{\boldsymbol{\theta_0}}(X)=E[Y|X] Y=E[Y|X]+ϵY=E[Y|X]+ϵY=E[Y|X]+\epsilon 上記の2つのプロパティがあります。

1
GLMのMLEを見つけるためのIRLSメソッドの簡単で直感的な説明を提供できますか?
バックグラウンド: GLMのMLE推定に関するプリンストンのレビューをフォローしようとしています。 私はMLE推定の基礎を理解:likelihood、score、観察し、期待Fisher informationとFisher scoring技術。そして、私はMLE推定で単純な線形回帰を正当化する方法を知っています。 質問: このメソッドの最初の行すら理解できません:( 次のように定義された作業変数の背後にある直観は何ですか?ziz私z_i zi=η^i+(yi−μ^i)dηidμizi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} なぜβを推定するために代わりに使用されるのですか?yiyiy_iββ\beta そしてresponse/link function、とμの間の接続であるとの関係は何ですかηη\etaμμ\mu 誰もが簡単な説明をしているか、これについてより基本的なレベルのテキストに私を導くことができるならば、私は感謝するでしょう。

3
周辺カウントのみが与えられた同時分布の最尤推定量
ましょうpx,ypx,yp_{x,y} 2つのカテゴリ変数の同時分布であるX,YX,YX,Yと、x,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}。セイnnnのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられているj=1,…,Kj=1,…,Kj=1,\ldots,K: Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, S j、T jが与えられた場合のの最尤推定量は何ですか?これは知られていますか?計算的に実行可能ですか?ML以外にこの問題に対する他の合理的なアプローチはありますか?px,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

1
一般化非線形最小二乗回帰(nlme)の対数尤度を「手で」計算する
私は、機能のための最小二乗非線形回帰、一般化のための対数尤度を計算しようとしているf(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}によって最適化されたgnlsRパッケージの機能をnlme(ブラウン運動と仮定AA系統樹上の距離によって生成された分散共分散行列使用して、corBrownian(phy=tree)からape)パッケージ。次の再現可能なRコードは、x、yデータと9タクサを持つランダムツリーを使用してgnlsモデルに適合します。 require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) logLikから得られた推定パラメータに基づいて、対数尤度を「手で」(Rで、ただし関数を使用せずに)計算したいgnlsので、からの出力と一致しますlogLik(fit)。注:パラメーターを推定しようとはしていません。gnls関数によって推定されたパラメータの対数尤度を計算したいだけです(誰かがパラメータなしgnlsでパラメータを推定する方法の再現可能な例を持っているなら、私はそれを見ることに非常に興味があるでしょう!)。 Rでこれをどのように実行するかはよくわかりません。SとS-Plusの混合効果モデル(PinheiroとBates)で説明されている線形代数表記法は頭の上のもので、私の試みはどれも一致していませんlogLik(fit)。PinheiroとBatesが説明する詳細は次のとおりです。 一般化された非線形最小二乗モデルの対数尤度 ここで、 φ I = A I β次のように計算されます。yi=fi(ϕi,vi)+ϵiyi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕi=Aiβϕi=Aiβ\phi_i=A_i\beta l(β,σ2,δ|y)=−12{Nlog(2πσ2)+∑i=1M[||y∗i−f∗i(β)||2σ2+log|Λi|]}l(β,σ2,δ|y)=−12{Nlog⁡(2πσ2)+∑i=1M[||yi∗−fi∗(β)||2σ2+log⁡|Λi|]}l(\beta,\sigma^2,\delta|y)=-\frac 12 \Bigl\{ N\log(2\pi\sigma^2)+\sum\limits_{i=1}^M{\Bigl[\frac{||y_i^*-f_i^*(\beta)||^2}{\sigma^2}+\log|\Lambda_i|\Bigl]\Bigl\}} ここで、は観測値の数、f ∗ i(β )= …

1
確率の比率とPDFの比率
クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。 P(A)/P(B)P(A)/P(B)P(A)/P(B) を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られます。P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy ここで、f^(x,y)f^(x,y)\hat{f}(x, y)およびg^(x,y)g^(x,y)\hat{g}(x, y)はKDEであり、しきい値f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)およびg^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます:2Dでのカーネル密度推定量の統合。 python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。 KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} ここnで、ポイントの配列の長さとh使用される帯域幅です。 上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF(KDE)の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました(場所を忘れてしまった、申し訳ありません)。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。 したがって、問題はこの式の妥当性に限定されます。 P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} どのような状況下で、もしあれば、この関係が真実であると言えますか? [誤字修正(編集)] 追加: …

2
MLEは常に、データの基礎となるPDFを知っていることを意味し、EMは知らないことを意味しますか?
MLE(最大尤度推定)と、EM(期待最大化)とのリンク(ある場合)について明確にしたいいくつかの簡単な概念的な質問があります。 私が理解しているように、誰かが「私たちはMLEを使用しました」と言ったら、それは自動的にデータのPDFの明示的なモデルを持っていることを意味しますか?これに対する答えはイエスであるように思えます。別の言い方をすれば、誰かがいつでも「MLE」と言ったら、どんなPDFを想定しているのかを尋ねるのは公平です。これは正しいでしょうか? 最後に、EMでの私の理解は、EMでは、データの基礎となるPDFを実際に知らない、または知る必要がないということです。これは私の理解です。 ありがとうございました。

2
カーネル密度推定器を2Dに統合する
誰かがトレイルをたどりたい場合に備えて、私はこの質問から来ています。 基本的に、N個のオブジェクトで構成されたデータセットがあり、各オブジェクトには特定の数の測定値(この場合は2つ)が付加されています。ΩΩ\OmegaNNN Ω = o1[ x1、y1] 、o2[ x2、y2] 、。。。、oN[ xN、yN]Ω=o1[バツ1、y1]、o2[バツ2、y2]、。。。、oN[バツN、yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] Iは、確率を決定する方法が必要新しいオブジェクトに属するΩを私はその質問に助言されたように、確率密度得るためにFをp [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}私は私が既に持っていると信じてカーネル密度推定スルーを、 。 私の目標は、この新しいオブジェクトの確率(得ることであるので、設定されたこの2次元データへの帰属)Ωを、私はPDFファイルに統合するように言われたFを "上のサポートの値はその密度のためにあなたが観察したものよりも少ない」。"観察"密度は、fは、新しいオブジェクトで評価P、すなわち:F(XはP、Y P)。だから私は方程式を解く必要があります:p [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp、yp)f^(バツp、yp)\hat{f}(x_p, y_p) ∬x 、y:f^(x 、y)&lt; f^(xp、yp)f^(x 、y)dバツdy∬バツ、y:f^(バツ、y)&lt;f^(バツp、yp)f^(バツ、y)dバツdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 2DデータセットのPDF(pythonのstats.gaussian_kdeから取得)モジュール)は次のようになります。 ここで、赤い点は新しいオブジェクトp [ x p、y p ]を表しますp [ xp、yp]p[バツp、yp]p[x_p, …

6
を最大化する点推定を使用する場合、それはあなたの哲学について何と言っていますか?(フリークエンシーまたはベイジアンまたは他の何か?)
誰かが言ったら 「この方法は、を最大化するパラメーターのポイント推定MLEを使用するため、頻度が高く、さらにベイジアンではありません。」P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 同意しますか? 背景に関する最新情報:最近、頻繁に投稿されると主張する論文を読みました。私は彼らの主張に同意しない、せいぜい曖昧だと思う。この論文では、MLE(またはMAP)について明示的に言及していません。彼らは単にポイントの推定値を取得し、このポイントの推定値が真であるかのように単純に進みます。彼らはしますませんこの推定量のサンプリング分布、またはそのような何かの分析を行います。モデルは非常に複雑であるため、このような分析はおそらく不可能です。いずれの時点でも「後」という言葉は使用していません。彼らは、額面価格でこのポイント推定値を取得し、関心のある主要トピックである欠落データの推測に進みます。彼らの哲学には何があるかを示唆するアプローチは彼らのアプローチにはないと思います。彼らは頻繁になりたいと思っていたかもしれませんが(袖に哲学をつける義務があると感じているため)、実際のアプローチは非常に単純/便利/怠/で曖昧です。私は今、この研究にはその背後にある哲学は何もないと言う傾向があります。代わりに、彼らの態度はより実用的または便利だったと思う: 「データを観測し、欠落データzを推定したい。zとxの関係を制御するパラメーターθがあります。目的を達成するための手段を除き、θはあまり気にしません。私はのために見積もり持っθ、それはそれが簡単に予測することになりますZをからのxを、私はの点推定値を選択します。θを、それは便利ですので、特に私が選ぶだろう、θ最大P(X | θを)。」xxxzzzθθ\thetazzzxxxθθ\thetaθθ\thetazzzxxxθθ\thetaθ^θ^\hat{\theta}P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 不偏推定量 のアイデア明らかにFrequentist概念です。これは、データを条件とせず、パラメーターのすべての値を保持する素晴らしいプロパティ(不偏)を記述するためです。 ベイジアン手法では、データとパラメーターの役割は逆になります。特に、現在、観測されたデータを条件として、パラメーターの値について推論を進めています。これには事前の準備が必要です。 これまでのところこれでいいのですが、MLE(Maximum Likelihood Estimate)がこれに適合するのはどこですか?私は、多くの人がそれが周波数主義者である(またはより正確には、ベイジアンではない)と感じているという印象を受けます。しかし、観測データを取得し、を最大化するパラメーターを見つけることを含むため、ベイジアンであると感じています。MLEは暗黙的に均一な事前使用とデータの条件付けを使用し、P (p a r a m e t eP(data|parameter)P(data|parameter)P(data | parameter)。MLEがフリークエンティストとベイジアンの両方に見えると言ってもいいですか?または、すべての単純なツールは、これら2つのカテゴリのいずれかに正確に該当する必要がありますか?P(parameter|data)P(parameter|data)P(parameter | data) MLEは一貫していますていますが、一貫性はベイジアンのアイデアとして提示できると思います。任意の大きなサンプルが与えられると、推定値は正解に収束します。「推定値は真の値に等しい」というステートメントは、パラメーターのすべての値に当てはまります。興味深いのは、観測されたデータを条件にしてベイジアンにする場合にも、このステートメントが当てはまることです。この興味深いことは、MLEには当てはまりますが、公平な推定量には当てはまりません。 これが、MLEが周波数主義者として記述される可能性のあるメソッドの「最もベイジアン」であると感じる理由です。 とにかく、有限のサンプルサイズを含む、ほとんどのフリークエンティストの特性(不偏性など)はすべての場合に適用されます。一貫性が不可能なシナリオ(1つの実験内の無限のサンプル)でのみ成立するという事実は、一貫性がそのような有用な特性ではないことを示唆しています。 現実的な(つまり有限の)サンプルが与えられた場合、MLEに当てはまるFrequentistプロパティはありますか?そうでない場合、MLEは実際にはフリークエンティストではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.