更新:数年後知恵の恩恵を受けて、私は同様の質問に答えて本質的に同じ素材のより簡潔な取り扱いを書きました。
信頼領域を構築する方法
信頼領域を構築する一般的な方法から始めましょう。単一のパラメーターに適用して、信頼区間または区間のセットを生成できます。また、2つ以上のパラメーターに適用して、より高い次元の信頼領域を生成できます。
観測された統計Dは、パラメータθ持つ分布、つまり、可能な統計d上s(d|θ)サンプリング分布s (d | θ )から発生し、可能な値Θのセットでθの信頼領域を探します。最高密度領域(HDR)の定義:PDFのh -HDRは、確率hをサポートするドメインの最小サブセットです。示す時間の-HDR S (D | ψ )としてH ψを任意ため、ψdθΘhhhs(d|ψ)Hψψ∈Θ。次いで、hの信頼領域θデータが与えられると、D、集合であるCD={ϕ:D∈Hϕ}。hの典型的な値h 0.95です。
頻繁な解釈
信頼領域の前の定義から、次の
d∈Hψ⟷ψ∈Cd
とCd={ϕ:d∈Hϕ}。今(の大規模なセットを想像虚数)観測{Di}と同様の状況下で撮影し、D。すなわち、s(d|θ)からのサンプルです。以来Hθサポートの確率質量hのPDFのs(d|θ)、P(D私∈ Hθ)= h全てについて私。したがって、画分{ D私}れるD私∈ Hθであるh。そのため、上記の等価を使用して、数分の{ D私}れるθ ∈ CD私またあるh。
したがって、これは、θのh信頼領域に対する頻度主義者の主張は次のとおりです。θ
観測された統計Dを生じさせたサンプリング分布s (d | θ )から多数の虚数観測{ D私}を取得します。次に、θは、類似しているが虚数の信頼領域{ C D i }の分数h内にあります。s (d| θ)Dθh{CDi}
したがって、信頼領域CDは、θがどこかにある確率については主張しません。その理由は、単純に、θ確率分布について話すことができる式には何もないということです。解釈は、複雑な上部構造であり、基盤を改善するものではありません。ベースはs(d|θ)およびDであり、θは分布量として現れず、それに対処するために使用できる情報はありません。θ上の分布を取得するには、基本的に2つの方法があります。
- 手元の情報から直接分布を割り当てます:p(θ|I)。
- 関連θ別の分散量に:p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx。
どちらの場合も、θはどこかに左側に表示されなければなりません。どちらの方法も異端の事前を必要とするため、頻繁に使用することはできません。
ベイジアンビュー
ベイズがで行うことができ、ほとんどのh、信頼領域CD資格なし所与は、単に直接解釈である:それがのセットであることϕいるDに落ちるがh -HDR Hϕサンプリング分布のs(d|ϕ)。θについて必ずしも多くを語るわけではありません。その理由は次のとおりです。
確率θ∈CD、所与のDおよび背景情報I、ある:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
frequentist解釈とは異なり、我々はすぐにオーバー配信要求している、ということに注意してくださいθ。背景情報I標本分布であることを、以前のように、教えてくれるs(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Now this expression does not in general evaluate to h, which is to say, the h confidence region CD does not always contain θ with probability h. In fact it can be starkly different from h. There are, however, many common situations in which it does evaluate to h, which is why confidence regions are often consistent with our probabilistic intuitions.
たとえば、dとθの以前のジョイントPDF が対称であり、pd,θ(d,θ|I)=pd,θ(θ,d|I)であると仮定します。(明らかに、これはPDFがdとθ同じ領域に及ぶという仮定を含みます。)次に、事前確率がp(θ|I)=f(θ)場合、s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D). Hence
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.