観測された情報マトリックスは、予想される情報マトリックスの一貫した推定量ですか?


16

弱一貫性最尤推定器(MLE)で評価された観測情報行列が、期待される情報行列の弱一貫性推定器であることを証明しようとしています。これは広く引用された結果ですが、誰も参照や証明をしていません(Googleの結果の最初の20ページと統計テキストを使い果たしたと思います)。

弱一貫性のあるMLEシーケンスを使用して、大きな数の弱い法則(WLLN)と連続マッピング定理を使用して、必要な結果を得ることができます。ただし、連続マッピング定理は使用できないと思います。代わりに、多数の統一法則(ULLN)を使用する必要があると思います。誰かがこれの証拠を持っている参照を知っていますか?ULLNを試みていますが、簡潔にするため、現時点では省略します。

この質問の長さをおaびしますが、表記を導入する必要があります。表記は次のとおりです(私の証明は最後です)。

我々は確率変数のIIDサンプルがあるとし{Y1,,YN}密度のf(Y~|θ)、ここで(は、サンプルのメンバーのいずれか1つと同じ密度の単なる一般的なランダム変数です)。ベクトルは、すべてのであるすべてのサンプルベクトルのベクトルです。。密度の真のパラメーター値はであり、θΘRkY~Y=(Y1,,YN)TYiRni=1,,Nθ NY θ0θ^N(Y)はの弱一貫性最尤推定量(MLE)です。規則性条件に従って、フィッシャー情報マトリックスは次のように記述できます。θ0

I(θ)=Eθ[Hθ(logf(Y~|θ)]

ここでヘッセ行列です。同等のサンプルはHθ

IN(θ)=i=1NIyi(θ),

ここで、。観測された情報行列は次のとおりです。Iyi=Eθ[Hθ(logf(Yi|θ)]

J(θ)=Hθ(logf(y|θ)

(一部の人々は行列がで評価される需要θが、一部にはありません)。サンプルの観測情報マトリックスは次のとおりです。θ^

JN(θ)=i=1NJyi(θ)

ここで、Jyi(θ)=Hθ(logf(yi|θ)

Iは、推定の確率に収束を証明することができるI θ ではなくのN - 1 J Nθ NY I θ 0。ここまでが私の証明です。N1JN(θ)I(θ)N1JN(θ^N(Y))I(θ0)

の要素であるR J Nθ いずれかのために、R s = 1 k(JN(θ))rs=i=1N(Hθ(logf(Yi|θ))rs(r,s)JN(θ)r,s=1,,k。サンプルはIIDされている場合は、多数(WLLN)の弱法則、確率のこれらの加数が収束の平均によるに。したがって、N 1J Nθ Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs(すべての r s = 1 kなどに対してN 1 J Nθ P I θ 。残念ながら、私たちは単純に結論づけることはできません N - 1 J Nθ NY P I θをN1(JN(θ))rsP(I(θ))rsr,s=1,,kN1JN(θ)PI(θ)N 1 J N I と同じ関数ではないため、連続マッピング定理を使用します。N1JN(θ^N(Y))PI(θ0)N1JN()I()

これに関する助けは大歓迎です。



以下の私の答えはあなたの質問に答えますか?
Dapz

1
@Dapz今まであなたに返信しないことを心からおaび申し上げます。誰も答えないと思い込んでしまいました。以下の回答をありがとうございます-最も有用であることがわかるので、賛成しましたが、少し検討する必要があります。お時間をいただきありがとうございます。すぐに以下の投稿に返信いたします。
ダンダー

回答:


7

多数の一様な法則を直接確立することは、可能なアプローチの1つだと思います。

ここに別のものがあります。

私たちは、その見せたいJN(θMLE)NPI(θ)

(あなたが言ったように、我々はWLLNによって。しかし、これは直接私たちを助けません。)JN(θ)NPI(θ)

可能な戦略の1つは、それを示すことです

|I(θ)JN(θ)N|P0.

そして

|JN(θMLE)NJN(θ)N|P0

両方の結果が真である場合、それらを組み合わせて取得することができます

|I(θ)JN(θMLE)N|P0,

まさに私たちが見せたいものです。

最初の方程式は、大きな数の弱い法則から得られます。

2番目は、連続マッピング定理からほとんど続きますが、残念ながら、Nの変更にCMTを適用する関数gは実際にはg Nθ = J Nθ g()Ng。したがって、CMTは使用できません。gN(θ):=JN(θ)N

(コメント:あなたがウィキペディア上のCMTの証拠を検討した場合、予告その集合彼らは私たちのためにその証拠に定義するには、今も依存するn個我々は、本質的に同程度連続のいくつかの並べ替えを必要とする。θ * 私達の機能の上にG Nθ 。)BδnθgN(θ)

幸いなことに、家族 で確率的にequicontinuousあるθ *、それはすぐに追従するためのθ M L E P θ *| G Nθ M L E- G Nθ *| P 0。G={gN|N=1,2,}θθMLEPθ

|gn(θMLE)gn(θ)|P0.

(ここを参照してください:http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf確率的同程度連続の定義のために、及び上記の事実を証明します。)θ

したがって、θ でSEであると仮定すると、目的の結果が成り立ち、経験的なフィッシャー情報は母集団のフィッシャー情報に収束します。Gθ

さて、もちろん重要な質問は、SEを取得するためににどのような条件を課す必要があるかということです。これを行う方法の1つは、関数Gのクラス全体でLipshitz条件を確立することです(こちらを参照してください:http : //econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic-equicontinuity.original .pdf)。GG


1

確率的等連続性を使用した上記の答えは非常にうまく機能しますが、ここでは、観測された情報行列が情報行列の強い整合性のある推定量である、つまり私たちはプラグインあれば推定量の強く一貫したシーケンス。すべての詳細が正しいことを願っています。N1JN(θ^N(Y))a.s.I(θ0)

我々が使用するインデックス集合である、私たちは一時的表記法を採用できるようにJ Yθを= J θ の依存性を明示するために、J θ ランダムベクトルにY。また、仕事はして要素ごとものJ Yθ RIN={1,2,...,N}J(Y~,θ):=J(θ)J(θ)Y~および J NθR S = Σ N iが= 1J Y IθR SRS=1k、この議論のため。関数Jθr sは、集合 R n × Θで実数値になります(J(Y~,θ))rs(JN(θ))rs=i=1N(J(Yi,θ))rsr,s=1,...,k(J(,θ))rsRn×Θ, and we will suppose that it is Lebesgue measurable for every θΘ. A uniform (strong) law of large numbers defines a set of conditions under which

supθΘ|N1(JN(θ))rsEθ[(J(Y1,θ))rs]|=supθΘ|N1i=1N(J(Yi,θ))rs(I(θ))rs|a.s0(1)

The conditions that must be satisfied in order that (1) holds are (a) Θ is a compact set; (b) (J(Y~,θ))rs is a continuous function on Θ with probability 1; (c) for each θΘ (J(Y~,θ))rs is dominated by a function h(Y~), i.e. |(J(Y~,θ))rs|<h(Y~); and (d) for each θΘ Eθ[h(Y~)]<;. These conditions come from Jennrich (1969, Theorem 2).

Now for any yiRn, iIN and θSΘ, the following inequality obviously holds

|N1i=1N(J(yi,θ))rs(I(θ))rs|supθS|N1i=1N(J(yi,θ))rs(I(θ))rs|.(2)

Suppose that {θ^N(Y)} is a strongly consistent sequence of estimators for θ0, and let ΘN1=BδN1(θ0)KΘ be an open ball in Rk with radius δN10 as N1, and suppose K is compact. Then since θ^N(Y)ΘN1 for N sufficiently large enough we have P[limN{θ^N(Y)ΘN1}]=1 for sufficiently large N. Together with (2) this implies

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|supθΘN1|N1i=1N(J(Yi,θ))rs(I(θ))rs|}]=1.(3)

Now ΘN1Θ implies conditions (a)-(d) of Jennrich (1969, Theorem 2) apply to ΘN1. Thus (1) and (3) imply

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|=0}]=1.(4)

Since (I(θ^N(Y)))rsa.s.I(θ0) then (4) implies that N1(JN(θ^N(Y)))rsa.s.(I(θ0))rs. Note that (3) holds however small ΘN1 is, and so the result in (4) is independent of the choice of N1 other than N1 must be chosen such that ΘN1Θ. This result holds for all r,s=1,...,k, and so in terms of matrices we have N1JN(θ^N(Y))a.s.I(θ0).

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.