タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

2
観測されたフィッシャー情報が正確に使用されるのはなぜですか?
標準最尤設定(iidサンプル密度)の分布からの)および指定されたモデルの場合、フィッシャー情報は F Y(Y | θ 0をY1、… 、YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y| θ0fy(y|θ0f_{y}(y|\theta_{0} 私(θ )= − Eθ0[ ∂2θ2lnfy(θ )]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] ここでは、データを生成した真の密度に関して予測が行われます。観察されたフィッシャー情報を読んだ J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) (予想される)フィッシャー情報の計算に含まれる積分が場合によっては実行できない可能性があるため、私を混乱させているのは、積分が実行可能であっても、未知のパラメーター値が関係している真のモデルに関して期待をしなければならないことです。その場合は、を知らないを計算することは不可能です。これは本当ですか? θ 0 Iθ0θ0\theta_{0}θ0θ0\theta_{0}私II

3
Rのt分布のフィッティング:スケーリングパラメーター
t分布のパラメーター、つまり正規分布の「平均」と「標準偏差」に対応するパラメーターをどのように適合させますか。私はそれらがt分布の「平均」と「スケーリング/自由度」と呼ばれていると思いますか? 次のコードは、多くの場合「最適化に失敗しました」エラーになります。 library(MASS) fitdistr(x, "t") 最初にxをスケーリングするか、確率に変換する必要がありますか?それを行うのに最適な方法は?

1
最尤法とモーメント法が同じ推定量を生成するのはいつですか?
先日、私はこの質問をされましたが、これまで考えたことはありませんでした。 私の直感は、各推定量の利点から来ています。最尤法は、モーメントの方法とは異なり、分布全体の知識を利用するため、データ生成プロセスに自信がある場合に可能です。MoM推定器はモーメントに含まれる情報のみを使用するため、推定しようとしているパラメーターの十分な統計がデータのモーメントである場合、2つの方法は同じ推定値を生成するようです。 いくつかの分布でこの結果を確認しました。正規(未知の平均と分散)、指数、およびポアソンはすべて、それらのモーメントに等しい十分な統計を持ち、MLEとMoM推定器は同じです(複数のMoM推定器があるポアソンのようなものには厳密に当てはまりません)。私たちは制服を見てみると、のための十分統計であるとMOMとMLE推定器は異なっています。(0,θ)(0,θ)(0,\theta)θθ\thetamax(X1,⋯,XN)max(X1,⋯,XN)\max(X_1,\cdots,X_N) 多分これは指数族の奇癖だと思ったが、平均値が既知のラプラスの場合、十分な統計は1n∑|Xi|1n∑|Xi|\frac{1}{n} \sum |X_i| 分散のMLEとMoM推定量が等しくありません。 これまでのところ、一般的な結果を表示することはできませんでした。誰もが一般的な条件を知っていますか?または、反例でも直観を磨くのに役立ちます。

6
MLEが平均のバイアス推定値を生成する例はありますか?
偏った平均のMLE推定量の例を提供できますか? 規則性の条件に違反することでMLE推定量を一般的に破る例は探していません。 私がインターネットで見ることができるすべての例は分散を参照します、そして、私は平均に関連する何かを見つけることができないようです。 編集 @MichaelHardyは、特定の提案モデルでMLEを使用して均一分布の平均のバイアス推定値を取得する例を提供しました。 しかしながら https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint MLEは、明らかに別の提案モデルの下で、平均の一様に最小の不偏推定量であることを示唆しています。 この時点で、モデル中立であるサンプル平均推定量とは対照的に、非常に仮説的なモデル依存である場合、MLE推定が何を意味するのかはまだ明確ではありません。最後に、母集団について何かを推定することに興味があり、仮説モデルのパラメーターの推定についてはあまり気にしません。 編集2 @ChristophHanckが追加情報でモデルを示したため、バイアスが導入されましたが、MSEを減らすことができませんでした。 また、追加の結果があります。 http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(スライド2) http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(スライド5) 「θの最も効率的な不偏推定量ˆθが存在する場合(すなわちˆθが不偏であり、その分散がCRLBに等しい場合)、推定の最尤法はそれを生成します。」 「さらに、効率的な推定量が存在する場合、それはML推定量です。」 自由なモデルパラメーターをもつMLEは偏りがなく効率的であるため、定義上、この "the"最尤推定量は? 編集3 @AlecosPapadopoulosの数学フォーラムには、半正規分布の例があります。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 均一な場合のように、そのパラメーターを固定していません。彼は平均推定量のバイアスを実証していませんが、それで解決すると言うでしょう。

1
与えられたMLEでランダムサンプルをシミュレートする
一定の金額を持っていることを条件とするサンプルのシミュレーションについて尋ねるこの相互検証された質問は、ジョージ・カセラによって私に設定された問題を思い出させました。 パラメトリックモデルとこのモデルのiid​​サンプル が与えられると、のMLEは与えられます 指定された値の\ thetaに対して、iidサンプル(X_1、\ ldots、X_n)をシミュレートする一般的な方法がありますMLE \ hat {\ theta}(X_1、\ ldots、X_n)の値を条件としていますか?f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)θθ\theta(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) たとえば、位置パラメーター\ muでT5T5\mathfrak{T}_5分布を取り、その密度はf(x | \ mu)= \ dfrac {\ Gamma(3)} {\ Gamma(1/2)\ Gamma( 5/2)} \、\ left [1+(x- \ mu)^ 2/5 \ right] ^ {-3} If (X_1、\ ldots、X_n)\ stackrel {\ text {iid}} {\ sim} f(x | \ mu)\ …

2
不可能な推定問題?
質問 負の二項(NB)分布の分散は、常にその平均よりも大きくなります。サンプルの平均がその分散よりも大きい場合、NBのパラメーターを最尤法またはモーメント推定で近似しようとすると失敗します(有限パラメーターの解はありません)。 ただし、NB分布から取得したサンプルの平均は分散よりも大きい可能性があります。Rの再現可能な例を次に示します。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NBは、パラメーターを推定できないサンプル(最尤法とモーメント法)を生成する確率がゼロではありません。 このサンプルに対して適切な推定値を提供できますか? すべてのサンプルに対して推定量が定義されていない場合、推定理論は何と言いますか? 答えについて @MarkRobinsonと@Yvesの答えは、パラメータ化が主要な問題であることを実感させました。NBの確率密度は、通常次のように記述されます。 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k または P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 最初のパラメーター化では、サンプルの分散が平均よりも小さい場合、最尤推定値はであるため、について有用なことは言えません。2番目の場合、それはなので、合理的な推定値を与えることができます。最後に、@MarkRobinsonショーは、我々が使用して、無限の値の問題を解決することができることをの代わりに。(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmmr1+rr1+r\frac{r}{1+r}rrr 結論として、この推定問題に根本的な問題はありませんが、サンプルごとにと意味のある解釈を常に行えるとは限りません。公平を期すために、両方の答えにアイデアがあります。私は@MarkRobinsonのそれを彼が与える補数の正しいものとして選んだ。rrrppp

3
要約統計のみが利用可能な場合の推定方法
これは、次の質問とそれに続く議論によって部分的に動機付けられています。 iidサンプルが観測されたとします。目標はを推定することです。ただし、元のサンプルは利用できません。代わりに、サンプル統計があります。仮定固定されています。推定方法は?この場合の最尤推定量はどうなりますか?θ T 1、。。。、T kの K θバツ私〜F(x 、θ )Xi∼F(x,θ)X_i\sim F(x,\theta)θθ\thetaT1、。。。、TkT1,...,TkT_1,...,T_kkkkθθ\theta

1
ロジスティック回帰の特性
いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。 誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか?

2
optimとglmの残留標準誤差の違い
私はoptim、R関数glmまたはさらにはnlsR関数を取り付けた単純な線形回帰の結果で再現しようとします。 パラメーターの推定値は同じですが、残差分散の推定値と他のパラメーターの標準誤差は、特にサンプルサイズが小さい場合は同じではありません。これは、最大尤度アプローチと最小二乗アプローチ間での残差標準誤差の計算方法の違いによるものと思われます(nまたはn-k + 1で除算することは、以下の例を参照)。 私はウェブ上の私の読書から、最適化は簡単なタスクではないことを理解していますが、glm使用中に標準誤差の推定値を簡単な方法で再現できるかどうか疑問に思っていましたoptim。 小さなデータセットをシミュレートする set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) optimで見積もる negLL <- function(beta, y, x) { b0 <- beta[1] b1 …

2
観測された情報マトリックスは、予想される情報マトリックスの一貫した推定量ですか?
弱一貫性最尤推定器(MLE)で評価された観測情報行列が、期待される情報行列の弱一貫性推定器であることを証明しようとしています。これは広く引用された結果ですが、誰も参照や証明をしていません(Googleの結果の最初の20ページと統計テキストを使い果たしたと思います)。 弱一貫性のあるMLEシーケンスを使用して、大きな数の弱い法則(WLLN)と連続マッピング定理を使用して、必要な結果を得ることができます。ただし、連続マッピング定理は使用できないと思います。代わりに、多数の統一法則(ULLN)を使用する必要があると思います。誰かがこれの証拠を持っている参照を知っていますか?ULLNを試みていますが、簡潔にするため、現時点では省略します。 この質問の長さをおaびしますが、表記を導入する必要があります。表記は次のとおりです(私の証明は最後です)。 我々は確率変数のIIDサンプルがあるとし{Y1,…,YN}{Y1,…,YN}\{Y_1,\ldots,Y_N\}密度のf(Y~|θ)f(Y~|θ)f(\tilde{Y}|\theta)、ここで(は、サンプルのメンバーのいずれか1つと同じ密度の単なる一般的なランダム変数です)。ベクトルは、すべてのであるすべてのサンプルベクトルのベクトルです。。密度の真のパラメーター値はであり、θ∈Θ⊆Rkθ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k}Y~Y~\tilde{Y}Y=(Y1,…,YN)TY=(Y1,…,YN)TY=(Y_1,\ldots,Y_N)^{T}Yi∈RnYi∈RnY_{i}\in\mathbb{R}^{n}i=1,…,Ni=1,…,Ni=1,\ldots,Nθ N(Y )θ0θ0\theta_{0}θ^N(Y)θ^N(Y)\hat{\theta}_{N}(Y)はの弱一貫性最尤推定量(MLE)です。規則性条件に従って、フィッシャー情報マトリックスは次のように記述できます。θ0θ0\theta_{0} I(θ)=−Eθ[Hθ(logf(Y~|θ)]I(θ)=−Eθ[Hθ(log⁡f(Y~|θ)]I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right] ここでヘッセ行列です。同等のサンプルはHθHθ{H}_{\theta} IN(θ)=∑i=1NIyi(θ),IN(θ)=∑i=1NIyi(θ),I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta), ここで、。観測された情報行列は次のとおりです。Iyi=−Eθ[Hθ(logf(Yi|θ)]Iyi=−Eθ[Hθ(log⁡f(Yi|θ)]I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right] J(θ)=−Hθ(logf(y|θ)J(θ)=−Hθ(log⁡f(y|θ)J(\theta) = -H_\theta(\log f(y|\theta)、 (一部の人々は行列がで評価される需要θが、一部にはありません)。サンプルの観測情報マトリックスは次のとおりです。θ^θ^\hat{\theta} JN(θ)=∑Ni=1Jyi(θ)JN(θ)=∑i=1NJyi(θ)J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta) ここで、。Jyi(θ)=−Hθ(logf(yi|θ)Jyi(θ)=−Hθ(log⁡f(yi|θ)J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta) Iは、推定の確率に収束を証明することができるにI (θ )ではなくのN - 1 J N(θ N(Y ))にI (θ 0)。ここまでが私の証明です。N−1JN(θ)N−1JN(θ)N^{-1}J_N(\theta)I(θ)I(θ)I(\theta)N−1JN(θ^N(Y))N−1JN(θ^N(Y))N^{-1}J_{N}(\hat{\theta}_N(Y))I(θ0)I(θ0)I(\theta_{0}) 今の要素である(R 、よ)のJ N(θ )いずれかのために、R 、s = 1 、… 、k(JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs(JN(θ))rs=−∑i=1N(Hθ(log⁡f(Yi|θ))rs(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs}(r,s)(r,s)(r,s)JN(θ)JN(θ)J_N(\theta)r,s=1,…,kr,s=1,…,kr,s=1,\ldots,k。サンプルはIIDされている場合は、多数(WLLN)の弱法則、確率のこれらの加数が収束の平均によるに。したがって、N − 1(J N(θ )−Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs−Eθ[(Hθ(log⁡f(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs-E_{\theta}[(H_\theta(\log …

3
MLEにはiidデータが必要ですか?それとも独立したパラメーターですか?
最尤推定(MLE)を使用してパラメーターを推定するには、分布ファミリー(P(X = x |θ)のパラメーター空間(θ)で発生するサンプル(X)の確率をマッピングします。 )θの可能な値(注:私はこれで正しいですか?)。私が見たすべての例は、F(X)の積を取ることによってP(X = x |θ)を計算することを含みます。 θおよびXの値はサンプル(ベクトル)です。 データを乗算するだけなので、データが独立していることになりますか?たとえば、MLEを使用して時系列データを適合させることはできませんか?または、パラメーターは独立している必要がありますか?

3
単変量指数HawkesプロセスのMLEを見つける
単変量の指数関数的ホークスプロセスは、イベント到着率が次の自己励起ポイントプロセスです。 λ (t )= μ + ∑t私&lt; tα E- β(t − t私)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} ここで、はイベント到着時間です。t1、。。tnt1,..tn t_1,..t_n 対数尤度関数は − tnμ + αβ∑ (e- β(tn− t私)− 1 ) + ∑i &lt; jln(μ + α E- β(tj− t私))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} …



3
ネストされたvar-covarモデルの中から選択するために(MLではなく)REMLを使用する必要があるのはなぜですか?
線形混合モデルのランダム効果に関するモデル選択に関するさまざまな説明は、REMLの使用を指示しています。あるレベルでREMLとMLの違いは知っていますが、MLにバイアスがかかっているため、なぜREMLを使用する必要があるのか​​わかりません。たとえば、MLを使用して正規分布モデルの分散パラメーターでLRTを実行するのは間違っていますか(以下のコードを参照)。モデルの選択において、MLであるよりも偏らないことが重要である理由がわかりません。最終的な答えは「モデル選択がMLよりもREMLの方がうまく機能するため」でなければならないと思いますが、それ以上のことを知りたいと思います。LRTとAICの派生物は読みませんでした(それらを完全に理解するのに十分ではありません)が、派生物でREMLが明示的に使用されている場合は、実際に十分であることを知っているだけです(たとえば、 n &lt;- 100 a &lt;- 10 b &lt;- 1 alpha &lt;- 5 beta &lt;- 1 x &lt;- runif(n,0,10) y &lt;- rnorm(n,a+b*x,alpha+beta*x) loglik1 &lt;- function(p,x,y){ a &lt;- p[1] b &lt;- p[2] alpha &lt;- p[3] -sum(dnorm(y,a+b*x,alpha,log=T)) } loglik2 &lt;- function(p,x,y){ a &lt;- p[1] b &lt;- p[2] alpha &lt;- p[3] beta &lt;- …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.