Wilksの1938年の証明が、誤って指定されたモデルに対して機能しないのはなぜですか?


23

有名な1938年の論文(「複合仮説をテストするための尤度比の大標本分布」、Annals of Mathematical Statistics、9:60-62)で、サミュエルウィルクスは(対数尤度比)の漸近分布を導きました)ネストされた仮説の場合、より大きな仮説が正しく指定されているという仮定の下で。極限分布はχ 2(カイ二乗)とH - M個の自由度Hが大きい仮説とのパラメータの数であり、Mが2×LLRχ2hmhmネストされた仮説の自由パラメーターの数です。ただし、仮説が誤って指定されている場合(つまり、大きな仮説がサンプリングされたデータの真の分布ではない場合)、この結果が保持されないことはよく知られています。

誰でもその理由を説明できますか?ウィルクスの証明は、わずかな修正を加えても機能するはずです。最尤推定(MLE)の漸近正規性に依存しますが、これは誤って指定されたモデルでも保持されます。唯一の違いは、制限多変量正規分布の共分散行列です。正しく指定されたモデルでは、共分散行列を逆フィッシャー情報行列で近似できますが、仕様が間違っていれば、共分散行列のサンドイッチ推定(J 1 K J 1)。モデルが正しく指定されると、後者はフィッシャー情報行列の逆行列になります(J = KJ1J1KJ1J=K)。AFAICT、Wilksの証明は、MLEの多変量正規の可逆漸近共分散行列(Wilks論文の)がある限り、共分散行列の推定値がどこから来るかを気にしません。 c1


大きなモデルが真のが、サブモデルのfalseの場合、漸近分布ではありませんもう(ガウスエラーの線形モデルでは、例えば、我々は正確な非心-F分布のようなものを得る漸近分布は、NC-のようなものでなければなりませんので、χ 2推測しています)。では、なぜ我々はそれがあることを期待するχ 2を両方より大きいとき小さいモデルは両方とも間違っていますか?そもそも、帰無仮説とは何ですか?χ2χ2χ2
男14年

正しく指定された帰無仮説では、両方のモデルは「真」ですが、ネストされたモデルではパラメーターが真の値に固定されています。誤って指定された帰無仮説では、両方のモデルが「偽」ですが、ネストされたモデルでは、疑似パラメーターで固定されたm個のパラメーターがあります。(「擬似真値」は、誤って指定されたモデルと真のモデルの間のカルバックリーブラー距離を最小化するパラメーターの漸近値です)。したがって、非中心Fの例は、ここでの帰無仮説が偽である場合の分布であるため、関係ありません。mm
ラットサラダ14年

申し訳ありませんが、ネストされた仮説のパラメーターは真の値に固定されていると言っておくべきでした。hm
ラットサラダ14年

誤って指定されたヌルモデルは多くの方法で誤って指定される可能性があることは私の理解です。例:残差の誤った分布、データの不均一分散、効果は相加的ではない、など。ただし、「テスト済み」パラメーターの少なくとも1つが偽値(たとえば、疑似真値)に固定されている場合、これは誤って指定されたヌルモデルの一例です。hm
rcorty

回答:


19

RV FoutzとRC Srivastavaはこの問題を詳細に調査しました。彼らの1977年論文「尤度比検定のパフォーマンスモデルが間違っています」彼らの1978年論文ながら、証拠の非常に簡単なスケッチと一緒にmisspecificationの場合の分布結果の声明が含まれている「尤度比の漸近分布モデルが間違っています」という証明が含まれていますが、後者は昔ながらのタイプライターで入力されています(ただし、両方の論文で同じ表記法が使用されているため、それらを組み合わせて読むことができます)。また、証明のいくつかのステップについて、彼らはKPロイの論文「1からの尤度比の漸近分布に関するノート」を参照しています。

分布の誤仕様の場合、MLEがまだ一貫しており、漸近的に正常である場合(常にそうとは限りません)、LR統計量は、独立したカイ2乗(それぞれ1自由度)の線形結合に従います。

2lnλdi=1rciχi2

ここで、です。「類似性」を見ることができます。h - mの自由度を持つ1つのカイ2乗の代わりに、それぞれ1つの自由度を持つh - mのカイ2乗があります。しかし、カイ二乗の線形結合は閉形式密度を持たないため、「アナロジー」はそこで終わります。スケーリングされた各カイ2乗はガンマですが、ガンマの異なるスケールパラメーターをもたらす異なるc iパラメーターを持ち、そのようなガンマの合計は閉形式ではありませんが、その値は計算できます。r=hmhmhmci

以下のために定数、我々は持っているC 1C 2C R0、彼らは行列...行列の固有値はありますか?著者の表記法を使用して、Λを対数尤度のヘッセ行列に、Cを対数尤度の勾配の外積(期待値で)に設定します。そうV = Λ - 1 C Λ ' - 1は、 MLEの漸近分散共分散行列です。cic1c2...cr0ΛCV=Λ1C(Λ)1

次に、Vのr × r上対角ブロックに設定します。 Mr×rV

また、をブロック形式で記述しますΛ

Λ=[Λr×rΛ2Λ2Λ3]

セットWのシューア補数の負ですΛ)。W=Λr×r+Λ2Λ31Λ2WΛ

次に、は、パラメーターの真の値で評価された行列M Wの固有値です。ciMW

補遺
コメント中のOPの有効な発言への応答(実際、質問はより一般的な結果を共有するための踏み台になり、プロセスで無視される場合があります)。ここで、ウィルクスの証明は次のように進みます。 MLEの正規分布、および尤度比の関数式の導出に進みます。彼のeqまで。、分布の仕様が間違っていると仮定しても、証明は前進できます。OPが示すように、分散共分散行列の条件は仕様の誤りのシナリオでは異なりますが、ウィルクスはすべて微分を行い、漸近的に無視できる用語。そして、彼はeqに到着します。[ 9 ][9][9]hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

But if we have misspecification, then the terms that are used in order to scale the centered and magnified MLE n(θ^θ) are no longer the terms that will make the variances of each element equal to unity, and so transform each term into a standard normal r.v and the sum into a chi-square.
And they are not, because these terms involve the expected values of the second derivatives of the log-likelihood... but the expected value can only be taken with respect to the true distribution, since the MLE is a function of the data and the data follows the true distribution, while the second derivatives of the log-likelihood are calculated based on the wrong density assumption.

So under misspecification we have something like

2lnλ=i=1hm(nθ^iθiai)2
and the best we can do is to manipulate it into

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.


1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad

2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.