私は他の答えに追加しようとします。まず、完全性は、それを使用する定理によって主に正当化される技術的条件です。それでは、関連するいくつかの概念と定理から始めましょう。
LET X=(X1,X2,…,Xn)我々が分布を有するようにモデル化するれ、IIDデータのベクトルを表しf(x;θ),θ∈Θパラメータθのデータを管理するが不明です。X ∣ Tの条件付き分布がパラメーターθに依存しない場合、T=T(X)で十分です。 V =X∣TθV=V(X)は、Vの分布が(ファミリーf (x ; θ )内の)θに依存しない場合に補助的です。U = U (Xは)であるゼロの不偏推定量の期待値は関係なく、ゼロであればθ。S = S (Xは)である完全な統計に基づいて、ゼロのいずれかの不偏推定場合Sがあること、同じゼロである場合、E G (Vθf(x;θ)U=U(X)θS=S(X)SEg(S)=0(for all θ)、g(S)=0 ae(すべてのθ)。
ここで、十分な統計T、g 1(T )、g 2(T )に基づいて、θ 2つの異なる不偏推定量があるとします。つまり、シンボル
E g 1(T )= θ では、Tg1(T),g2(T)Eg1(T)=θ,Eg2(T)=θ
およびP(g1(T)≠g2(T))>0(すべてのθ)。次に、g1(T)−g2(T)はゼロの不偏推定量であり、Tが完全ではないことを証明するゼロではありません。したがって、十分な統計T完全性は、θの一意の不偏推定量が1つだけ存在することを示します。θT基づいています。これはすでにレーマン・シェッフェの定理に非常に近いものです。
いくつかの例を見てみましょう。仮定X1,…,Xn今は間隔にIID均一である(θ,θ+1)。(X(1)<X(2)<⋯<X(n)は次数統計である)ペア(X(1),X(n))は十分ですが、完全ではないため、差X(n)−X(1)は補助的であり、その期待値を計算し、c(nのみの関数)とすると、X(n)−X(1)−cはゼロの不偏推定量になりますこれはまったくゼロではありません。したがって、この場合の十分な統計は完全ではなく、十分ではありません。そして、それが何を意味するのかを見ることができます:θについて情報を提供しない十分な統計の関数が存在しますθ(モデルのコンテキスト内)。これは、完全に十分な統計では発生しません。ある意味では、その機能は有益ではありません。一方、ノイズの項とみなされる可能性のある最小限の十分な統計の関数がある場合、それはモデルの外乱/ノイズの項にゼロが期待されます。したがって、完全ではない十分な統計にはノイズが含まれていると言えます。
Look again at the range R=X(n)−X(1) in this example. Since its distribution does not depend on θ, it doesn't by itself alone contain any information about θ. But, together with the sufficient statistic, it does! How? Look at the case where R=1 is observed.Then, in the context of our (known to be true) model, we have perfect knowledge of θ! Namely, we can say with certainty that θ=X(1). You can check that any other value for θ then leads to either X(1)またはX(n)は、想定モデルの下では不可能な観測です。一方、R=0.1を観察した場合、可能な値の範囲はθ is rather large (exercise ...).
この意味で、補助統計Rは、このデータとモデルに基づいてθを推定できる精度に関する情報が含まれています。この例などでは、補助統計量R「サンプルサイズの役割を引き継ぎます」。通常、信頼区間などにはサンプルサイズnが必要ですが、この例では、nではなくRのみを使用して計算される条件付き信頼区間を作成できます(運動)。これはフィッシャーのアイデアであり、推論はいくつかの補助的な統計。Rn
Now, Basu's theorem: If T is complete sufficient, then it is independent of any ancillary statistic. That is, inference based on a complete sufficient statistic is simpler, in that we do not need to consider conditional inference.
Conditioning on a statistic which is independent of T does not change anything, of course.
Then, a last example to give some more intuition. Change our uniform distribution example to a uniform distribution on the interval (θ1,θ2) (with θ1<θ2). In this case the statistic (X(1),X(n)) is complete and sufficient. What changed? We can see that completeness is really a property of the model. In the former case, we had a restricted parameter space. This restriction destroyed completeness by introducing relationships on the order statistics. By removing this restriction we got completeness! So, in a sense, lack of completeness means that the parameter space is not big enough, and by enlarging it we can hope to restore completeness (and thus, easier inference).
Some other examples where lack of completeness is caused by restrictions on the parameter space,
see my answer to: What kind of information is Fisher information?
Let X1,…,Xn be iid Cauchy(θ,σ) (a location-scale model). Then the order statistics in sufficient but not complete. But now enlarge this model to a fully nonparametric model, still iid but from some completely unspecified distribution F. Then the order statistics is sufficient and complete.
For exponential families with canonical parameter space (that is, as large as possible) the minimal sufficient statistic is also complete. But in many cases, introducing restrictions on the parameter space, as with curved exponential families, destroys completeness.
A very relevant paper is An Interpretation of Completeness and
Basu's Theorem.