なぜ一貫性を保つために推定量が必要なのですか?


15

一貫した推定量の数学的定義はすでに理解していると思います。私が間違っている場合は修正してください:

Wn場合、は一貫した推定量ですθϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

ここで、Θはパラメトリック空間です。しかし、私は推定量が一貫している必要性を理解したいと思います。一貫性のない推定量が悪いのはなぜですか?例を挙げていただけますか?

Rまたはpythonでのシミュレーションを受け入れます。


3
一貫性のない推定量は、必ずしも悪いものではありません。たとえば、一貫性のない偏りのない推定量を考えてみましょう。Consistent Estimatorに関するウィキペディアの記事en.wikipedia.org/wiki/Consistent_estimator、特にBias vs Consistencyに関するセクション
compbiostats

一貫性とは、おおまかに言って、推定量の最適な漸近的挙動です。長期的に\ thetaの真の値に近づく推定器を選択しますθ。これは確率のちょうど収束があるので、このスレッドは役に立つかもしれません:stats.stackexchange.com/questions/134701/...
StubbornAtom

@StubbornAtom、このような一貫した推定器を「最適」と呼ぶのは慎重です。その用語は通常、何らかの意味で効率的な推定器のために予約されています。
クリストフハンク

回答:


22

推定器に一貫性がない場合、それは確率の真の値収束しません。言い換えると、データポイントの数に関係なく、推定量と真の値に差がある可能性が常にあります。膨大な量のデータを収集した場合でも、推定値は常に真の値とは異なるなるという確実な確率を持つため、これは実際には悪いことです。実際には、このような状況は、少量のサンプルではなく全人口を調査しても役に立たないような量の推定量を使用していると考えることができます。ϵ>0


21

n = 10と考えるn=10000標準コーシー分布からの 000の観測。これは、1自由度のスチューデントのt分布と同じです。この分布の裾は十分に重いため、意味がありません。分布は中央値 η = 0を中心としています。η=0.

サンプルのシーケンスは、A j = 1を意味しますAj=1ji=1jXiはコーシー分布の中心に対して一貫性がありません。大雑把に言えば、非常に極端な観測Xi(正または負)が十分な規則性で発生するため、Ajη=0.に収束する可能性はありません(Ajは収束が遅いだけでなく、 tはこれまでに収束する。の分布jが再び標準コーシー[プルーフ])。Aj

これとは対照的に、継続的なサンプリングプロセスのいずれかの段階で、観測値の約半分はXiのいずれかの側にあるだろうη,シーケンスのようにHjサンプル中央値のが収束するんη.

このAj収束とHjの収束の欠如は、次のシミュレーションによって示されます。

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

enter image description here

以下がステップのリストです|Xi|>1000.これらの極端な観測値の一部が、左側のプロット(赤い赤い点線)の移動平均に及ぼす影響を確認できます。

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

推定において重要な一貫性:コーシー母集団からのサンプリングでは、n = 10のサンプルのサンプル平均n=10000観測値は、1つの観測値よりも中心ηを推定するのに適しています。対照的に、一貫したサンプル中央値はη,収束するためサンプルが大きいほど、より良い推定値が生成されます。


1
少しピッキングしますが、シミュレーションでは、確率ではなくコーシー中心にほぼ確実に収束するサンプル平均の失敗を示しています(強い一貫性と弱い一貫性)。
aleshing

9

一貫性を考えることが重要である理由の実に簡単な例は、私が十分な注意を引くとは思わないが、単純化したモデルのそれです。

理論的な例として、真の効果が実際には非線形であるいくつかのデータに線形回帰モデルを当てはめたいとします。その場合、予測は共変量のすべての組み合わせの真の平均と一致することはできませんが、より柔軟な方法は可能です。つまり、単純化されたモデルには、より多くのデータを使用しても克服できない欠点があります。


線形回帰モデルがあるという意味で、「常にフィット」ので、これは、必ずしも真実ではない。モデルは問題ないと主張することができますが、実際には「間違い」は残差がiid正規分布を持っていると仮定しています。yi=y^i+e^i
確率的

8

@BruceETはすでに優れた技術的な答えを出しましたが、それについての解釈についてのポイントを付け加えたいと思います。

統計の基本概念の1つは、サンプルサイズが大きくなると、基礎となる分布についてより正確な結論に達することができるということです。これは、大量のサンプルを取得することでデータのランダムなジッターを排除するという概念と考えることができます。そのため、基礎となる構造のより良い概念が得られます。

(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

さて、また、このルールに従うことを要求している矛盾しないように推定量を必要とする:その仕事は未知パラメータを推定することであるように、我々はそのパラメータに収束することを希望(読み:見積りをその恣意もパラメータ)私たちのサンプルとして、サイズは無限大になる傾向があります。

方程式

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

Wnθ

[θε,θ+ε]θ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.