パラメータの推定値を計算するために必要なすべての情報が十分な統計に含まれているのはなぜですか?


16

統計の研究を始めたばかりで、十分なものを直感的に理解することができません。より正確には、次の2つの段落が同等であることを示す方法を理解できません。

大まかに、未知のパラメーターθを条件とする独立した同一分布データのセットXが与えられると、十分な統計量は、パラメーターの推定値を計算するために必要なすべての情報を値に含む関数T(X)です。

統計T(X)が与えられたデータXの条件付き確率分布がパラメーターθに依存しない場合、統計T(X)は基礎となるパラメーターθに十分です。

十分な統計からの引用を取りました)

2番目のステートメントは理解できますが、因数分解定理を使用して特定の統計が十分であるかどうかを示すことはできますが、そのようなプロパティを持つ統計が「パラメータの推定」。とにかく理解を深めるのに役立つ正式な証拠を探していません。2つのステートメントが同等である理由の直感的な説明を取得したいと思います。

要約すると、私の質問は次のとおりです。2つのステートメントが同等なのはなぜですか。誰かがその等価性について直感的な説明を提供できますか?


1
主な直感的なアイデアは、サンプルから必要なすべての情報を要約した統計を見つけることができるため、サンプル全体を表示する必要がない場合があることです。たとえば、二項分布を考えてみましょう。モデルについて知っておく必要があるのは、成功の合計だけです。サンプル値x = {のセット全体を表示するのではなく、とだけ言っても値の何も失わないinxi=cx={1,0,0,1,0,1,...}
ムゲン

なぜ十分な統計が必要になるのか、そして成功の合計がベルヌーイ過程のpにとって十分な統計であることを示す方法を理解しています。私が理解していないのは、2番目の段落で説明したような統計に、パラメーターの推定値を計算するために必要なすべての情報が含まれている理由です。
gcoll

3
厳密に言えば、最初の引用は明らかに間違っています。データセット全体から計算できる推定量はたくさんありますが、十分な統計量だけでは計算できません。それが、引用が「大まかに」始まる理由の1つです。別の理由は、「情報」の定量的または厳密な定義を提供していないことです。ただし、前の段落ではるかに正確な(ただし直観的な)特性化が行われたため、適切なコンテキスト
whuber

1
最尤法との関連性があり、本質的に最尤法で必要な情報です
-Kamster

1
whuberと@Kamsterのコメントに続いて、私はおそらくより良い理解を得ました。十分な統計量にパラメーターの推定値を計算するために必要なすべての情報が含まれると言うとき、実際には最尤推定量(すべての十分な統計量の関数)を計算するのに十分であることを意味しますか?これは本当であり、問​​題はすべて「情報」の(非)定義に関連しており、whuberが示唆したように、私の質問に答えています。
gcoll

回答:


3

@whuberと@Kamsterのコメントに続いて、私はおそらくより良い理解を得た。十分な統計量にパラメーターの推定値を計算するために必要なすべての情報が含まれると言う場合、実際に意味するのは、最尤推定量(すべての十分な統計量の関数)を計算するのに十分であることです。

私は自分の質問に答えているので、答えが100%確信できないので、フィードバックを得るまでは正しいとマークしません。私が間違っている/不正確であるなどと思われる場合は、コメントを追加して投票してください...

(これがSEのエチケットと互換性がないかどうかを教えてください。これが私の最初の質問であるため、規則に違反している場合は寛大にお願いします)


1

十分性について勉強していたときに、私はあなたの質問に出くわしました。なぜなら、私が集めたものから、これが私が思いついたことについての直観も理解したかったからです。

レッツ平均のポアソン分布からのランダムサンプルであってもθ >X1,,Xnθ>0

我々はそれを知っているのための十分統計量であるθの条件付き分布するので、X 1... X nは与えられたT Xがの自由であるθは、他の言葉では、ありませんθに依存T(X)=i=1nXiθX1,,XnT(X)θθます。

A X1,,Xni.i.dPoisson(4)n=400、この分布からランダムな値:

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

ABに次のます。

「これらのサンプル値があります x1,,xni=1nxi=y=4068あなたがこのディストリビューションについて私に言うことができる何を?"

i=1nxi=y=4068Bθますか?これが十分な統計であることを知っているので、答えが「はい」であることを知っています。

この意味について理解するために、次のことを行いましょう(Hogg&Mckean&Craigの「Introduction to Mathematical Statistics」、第7版、演習7.1.9から):

Bz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1zn

これが演習の状態です。それで、それを正確にやってみましょう:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Z のように見えます(私はまた、ポアソン(4)の実密度をプロットしています k=0113 -13を超えるものは事実上ゼロです-(比較のため):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

だから、何も知らない θ 十分な統計のみを知っている Y=バツ Poisson(4)分布によく似た「分布」を再現することができました( n 増加すると、2つの曲線はより類似します)。

今、比較 バツ そして Z|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

同様に(予想どおり)かなり似ていることがわかります。

そのため、「統計的判断を下すために、個々のランダム変数を無視できます。 バツ そして、完全に決定を下す Y=バツ1+バツ2++バツn"(アッシュ、R。「統計的推論:簡潔なコース」、59ページ)。


0

役に立つかもしれない別の視点を与えてみましょう。これも定性的ですが、情報理論で特に重要な厳密なバージョンがあります-マルコフ特性として知られています。

最初に、2つのオブジェクト、データ(ランダム変数に由来し、Xと呼びます)とパラメーターがあります。 θ(推定値について話しているため、暗黙的に想定される別のrv)。これら2つは依存していると想定されます(そうでなければ、一方を他方から推定しようとする意味がありません)。これで、3番目のオブジェクト、Sufficient Statistic、Tがゲームに入ります。θ Tを知っている(つまり、Tで条件付けされている)場合、Xは追加情報を提供しない、つまりXと θ独立しています。言い換えれば、Xの知識は、θ心配です。確率では、すべての不確実性がキャプチャされるため、(条件付き)確率が独立している場合(条件付き密度の因数分解など)の「推定値」に注意してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.