どのモデルの場合、MLEのバイアスは分散よりも速く低下しますか?


14

してみましょう trueパラメータの最尤推定値も一部のモデルの。データポイント数が増えると、エラーは通常O(1 / \ sqrt n)として減少します。三角形の不等式と期待値の特性を使用すると、このエラー率が「バイアス」\ lVert \ mathbb E \ hat \ theta-\ theta ^ * \ rVertと「偏差」\ lVert \ mathbb Eの両方を意味することを示すことができます。\ hat \ theta-同じO(1 / \ sqrt {n})での\ hat \ theta \ rVertの減少θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)割合。もちろん、モデルがより速い速度で縮小するバイアスを持つことは可能です。多くのモデル(通常の最小二乗回帰など)にはバイアスがありません。

O(1 / \ sqrt n)よりも速く収縮するバイアスを持つモデルに興味O(1/n)がありますが、偏差がO(1 / \ sqrt n)としてまだ収縮するため、この高速ではエラーが収縮しませんO(1/n)。特に、モデルのバイアスがO(1 / n)の割合で縮小するのに十分な条件を知りたいと思いO(1/n)ます。


DOES θ^θ=(θ^θ)2?それとも?
アレコスパパドプロス

はい、具体的にはL2ノルムについて尋ねました。しかし、質問が答えやすくなるのであれば、他の規範にも興味があります。
マイクIzbicki

(θ^θ)2Op(1/n)です。
アレコスパパドプロス

申し訳ありませんが、あなたのコメントを読み違えました。次元のL2ノルムの場合、であるため、収束は。二乗するととして収束することに同意します。d O1/ab=i=1d(aibi)2O1/nO(1/n)O(1/n)
マイクIzbicki

リッジ回帰(Hoerl&Kennard 1970)の論文を見ましたか?これが真であると予想される設計マトリックス+ペナルティの条件を与えると思います。
dcl

回答:


5

一般に、MLEが漸近的に正規ではなく、他の分布に収束するモデルが必要です(より高速に収束します)。これは通常、推定中のパラメーターがパラメーター空間の境界にあるときに発生します。直観的には、これは、MLEがパラメーターに「一方からのみ」近づくことを意味し、パラメーターを「前後に」移動することによって「気が散らない」ため、「収束速度が向上します」。

標準的な例は、のためのMLEれるのIIDサンプル中のここで、均一なRVのザMLEは、最大順序統計量でありますU 0 θ θU(0,θ)

θ^n=u(n)

その有限サンプル分布は

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

したがって、。ただし、分散についても同じ増加率が保持されます。B(θ^n)=O(1/n)

また、限界分布を得るには、変数を調べる必要があることを確認できます(つまり、スケーリングする必要があります)のnn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

これは、指数分布のCDFです。

これが何らかの方向性を提供することを願っています。


これは近づいていますが、バイアスが分散よりも速く収縮する状況に特に興味があります。
マイクIzbicki

2
@MikeIzbickiうーん...バイアスの収束は分布の最初の瞬間に依存し、分散(の平方根)も「一次」の大きさです。これが起こる可能性があるかどうかはわかりません。なぜなら、制限された分布の瞬間が、互いに互換性のない収束率で「上昇」することを意味するように見えるからです...私はそれについて考えます。
アレコスパパドプロス

2

私の他の回答のコメントに続いて(そして、OPの質問のタイトルをもう一度見てください!)、ここでは問題のあまり厳密ではない理論的調査があります。

バイアスが分散の平方根と異なる収束率を持っているかどうかを判断したい、B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

我々は持っています

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

ながら

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

が成り立つ場合があることが わかります(2)

A)両方の成分は であり、その場合はしか持てません。 O(1/n2γ)γ=δ

B)ただし、

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

以下のためにと互換性があるように、我々は持っている必要があります(3)(1)

(4)n2γ<n2δδ>γ

そのため、原則として、分散の平方根よりも速い速度でバイアスを収束させることができるようです。ただし、バイアスよりも速い速度で収束する分散の平方根を持つことはできません。


これを通常の最小二乗法のような不偏推定量の存在とどのように調和させますか?その場合、ですが、。B(θ^)=0Var(θ^)=O(1/n)
マイクIzbicki

@MikeIzbicki収束/ big-Oの概念はこの場合に適用可能ですか?ここで、は「 anything」ではないからです。B(θ^)O()
アレコスパパドプロス

この場合、なので、。Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
マイクIzbicki

@MikeIzbickiただし、またはまたは書き留めておく必要のあるその他のものも。ここで収束率はどれですか?B(θ^)=O(n)B(θ^)=O(1/n)
アレコスパパドプロス

@MikeIzbicki私は答えを修正して、バイアスをより速く収束させることが原則的に可能であることを示しましたが、「ゼロバイアス」の例にはまだ問題があると思います。
アレコスパパドプロス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.