それから


21

古典的な統計では、データセットy 1y nの統計Tがパラメーターθに対して完全であると定義され、それから0の不偏推定量を非自明に形成することは不可能であるという定義があります。つまり、唯一の方法は、持っているE H T Y = 0を全てに対してθを有することであるhはである0をほぼ確実。y1,,ynθ0Eh(T(y))=0θh0

この背後に直感がありますか?これはかなり機械的な方法のように思えますが、これは以前に尋ねられたことを知っていますが、入門者の学生が資料を消化するのが簡単になる直感を非常に理解しやすいかどうか疑問に思っていました。


2
それは非常に良い質問です。自分で掘り下げなければなりませんでした。それがこのような機械的な定義であり、私のような標準的な実践者にとって直感的に意味がないように見える理由は、数学統計における基本的な貢献を証明するために主に使用されるためです。特に、私の短い検索により、リーマン・シェッフェの定理とバスの定理は、保持するために統計量の完全性を必要とすることが明らかになりました。これらは1950年代半ばの貢献です。私はあなたに直感的な説明を提供することはできません-しかし、あなたが本当にそれを作りたいなら、多分証明連想
ジェレミアズK

回答:


18

私は他の答えに追加しようとします。まず、完全性は、それを使用する定理によって主に正当化される技術的条件です。それでは、関連するいくつかの概念と定理から始めましょう。

LET X=(X1,X2,,Xn)我々が分布を有するようにモデル化するれ、IIDデータのベクトルを表しf(x;θ),θΘパラメータθのデータを管理するが不明です。X Tの条件付き分布がパラメーターθに依存しない場合、T=T(X)十分です。 V =XTθV=V(X)は、Vの分布が(ファミリーf x ; θ 内の)θに依存しない場合に補助的です。U = U Xはであるゼロの不偏推定量の期待値は関係なく、ゼロであればθS = S Xはである完全な統計に基づいて、ゼロのいずれかの不偏推定場合Sがあること、同じゼロである場合、E G Vθf(x;θ)U=U(X)θS=S(X)SEg(S)=0(for all θ)g(S)=0 ae(すべてのθ)。

ここで、十分な統計Tg 1T g 2T )に基づいて、θ 2つの異なる不偏推定量があるとします。つまり、シンボル E g 1T = θ では、Tg1(T),g2(T)

Eg1(T)=θ,Eg2(T)=θ
およびP(g1(T)g2(T))>0(すべてのθ)。次に、g1(T)g2(T)はゼロの不偏推定量であり、Tが完全ではないことを証明するゼロではありません。したがって、十分な統計T完全性は、θの一意の不偏推定量が1つだけ存在することを示します。θT基づいています。これはすでにレーマン・シェッフェの定理に非常に近いものです。

いくつかの例を見てみましょう。仮定X1,,Xn今は間隔にIID均一である(θ,θ+1)。(X(1)<X(2)<<X(n)は次数統​​計である)ペア(X(1),X(n))は十分ですが、完全ではないため、差X(n)X(1)は補助的であり、その期待値を計算し、cnのみの関数)とすると、X(n)X(1)cはゼロの不偏推定量になりますこれはまったくゼロではありません。したがって、この場合の十分な統計は完全ではなく、十分ではありません。そして、それが何を意味するのかを見ることができます:θについて情報を提供しない十分な統計の関数が存在しますθ(モデルのコンテキスト内)。これは、完全に十分な統計では発生しません。ある意味では、その機能は有益ではありません。一方、ノイズの項とみなされる可能性のある最小限の十分な統計の関数がある場合、それはモデルの外乱/ノイズの項にゼロが期待されます。したがって、完全ではない十分な統計にはノイズが含まれていると言えます

Look again at the range R=X(n)X(1) in this example. Since its distribution does not depend on θ, it doesn't by itself alone contain any information about θ. But, together with the sufficient statistic, it does! How? Look at the case where R=1 is observed.Then, in the context of our (known to be true) model, we have perfect knowledge of θ! Namely, we can say with certainty that θ=X(1). You can check that any other value for θ then leads to either X(1)またはX(n)は、想定モデルの下では不可能な観測です。一方、R=0.1を観察した場合、可能な値の範囲はθ is rather large (exercise ...).

この意味で、補助統計Rは、このデータとモデルに基づいてθを推定できる精度に関する情報が含まれています。この例などでは、補助統計量R「サンプルサイズの役割を引き継ぎます」。通常、信頼区間などにはサンプルサイズnが必要ですが、この例では、nではなくRのみを使用して計算される条件付き信頼区間を作成できます(運動)。これはフィッシャーのアイデアであり、推論はいくつかの補助的な統計。Rn

Now, Basu's theorem: If T is complete sufficient, then it is independent of any ancillary statistic. That is, inference based on a complete sufficient statistic is simpler, in that we do not need to consider conditional inference. Conditioning on a statistic which is independent of T does not change anything, of course.

Then, a last example to give some more intuition. Change our uniform distribution example to a uniform distribution on the interval (θ1,θ2) (with θ1<θ2). In this case the statistic (X(1),X(n)) is complete and sufficient. What changed? We can see that completeness is really a property of the model. In the former case, we had a restricted parameter space. This restriction destroyed completeness by introducing relationships on the order statistics. By removing this restriction we got completeness! So, in a sense, lack of completeness means that the parameter space is not big enough, and by enlarging it we can hope to restore completeness (and thus, easier inference).

Some other examples where lack of completeness is caused by restrictions on the parameter space,

  • see my answer to: What kind of information is Fisher information?

  • Let X1,,Xn be iid Cauchy(θ,σ) (a location-scale model). Then the order statistics in sufficient but not complete. But now enlarge this model to a fully nonparametric model, still iid but from some completely unspecified distribution F. Then the order statistics is sufficient and complete.

  • For exponential families with canonical parameter space (that is, as large as possible) the minimal sufficient statistic is also complete. But in many cases, introducing restrictions on the parameter space, as with curved exponential families, destroys completeness.

A very relevant paper is An Interpretation of Completeness and Basu's Theorem.


7

Some intuition may be available from the theory of best (minimum variance) unbiased estimators.

If EθW=τ(θ) then W is a best unbiased estimator of τ(θ) iff W is uncorrelated with all unbiased estimators of zero.

Proof: Let W be an unbiased estimator uncorrelated with all unbiased estimators of zero. Let W be another estimator such that EθW=EθW=τ(θ). Write W=W+(WW). By assumption, VarθW=VarθW+Varθ(WW). Hence, for any W, VarθWVarθW.

Now assume that W is a best unbiased estimator. Let there be some other estimator U with EθU=0. ϕa:=W+aU is also unbiased for τ(θ). We have

Varθϕa:=VarθW+2aCovθ(W,U)+a2VarθU.
If there were a θ0Θ such that Covθ0(W,U)<0, we would obtain Varθϕa<VarθW for a(0,2Covθ0(W,U)/Varθ0U). W could then not be the best unbiased estimator. QED

Intuitively, the result says that if an estimator is optimal, it must not be possible to improve it by just adding some noise to it, in the sense of combining it with an estimator that is just zero on average (being an unbiased estimator of zero).

Unfortunately, it is difficult to characterize all unbiased estimators of zero. The situation becomes much simpler if zero itself is the only unbiased estimator of zero, as any statistic W satisfies Covθ(W,0)=0. Completeness describes such a situation.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.