分散の信頼区間を作成するときにカイ二乗が使用されるのはなぜですか?


15

これは非常に基本的な質問です。なぜカイ二乗分布を使用するのですか?この分布の意味は何ですか?なぜ分散の信頼区間を作成するためにこの分布が使用されるのですか?

私が説明のためにグーグルで検索するすべての場所は、これを事実として提示し、chiを使用するタイミングを説明しますが、chiを使用する理由と、chiが使用される理由を説明しません。

正しい方向に私を向けることができる人に感謝します-それは、分散の信頼区間を作成するときにchiを使用している理由を本当に理解しています。


4
使用する理由は-データが正常な場合Q=(n1)s2σ2χn12。(これにより、Qは極めて重要な量になります)
Glen_b -Reinstate Monica

2
stats.stackexchange.com/questions/15711/…およびそのリンクも参照してください。
ニックコックス

1
またはさらなる研究の用途に興味がある人のためにχ2、あなたはの区別に注意を払うことになるでしょうχ2(「カイ二乗」)分布とχことがある(「カイ」)分布(平方根χ2、当然)。
whuber

回答:


23

素早い回答

その理由は、データがIIDとされていると仮定されるからXiN(μ,σ2)、及び規定

X¯=NXiNS2=N(X¯Xi)2N1
形成信頼区間、標本分散に関連付けられた標本分布(S2、ランダム変数を覚えている!)カイ二乗分布である(S2(N1)/σ2χn12)、サンプル平均値に関連付けられたサンプリング分布は標準正規分布であると同じように((X¯μ)n/σZ(0,1))あなたは分散を知っている、としたときにはないT-学生と((X¯μ)n/STn1)。

長い答え

まず第一に、私たちは、ことを証明しますのカイ二乗分布は以下のN - 1自由度を。その後、分散の信頼区間を導出する際にこの証明がどのように役立つか、カイ二乗分布がどのように現れるか(そしてなぜそれがそんなに役立つのか!)さぁ、始めよう。S2(N1)/σ2N1

の証拠

このためには、このウィキペディアの記事のカイ二乗分布に慣れる必要があります。この分布は、唯一つのパラメータがあります自由度、、によって与えられた瞬間生成関数(MGF)を有することを起こる: M χ 2 νT = 1 - 2 T - ν / 2 我々は、分布することを示すことができればS 2N - 1 / σ 2を有するが、このような瞬間生成機能を有し、ν =ν

mχν2t=12tν/2
S2N1/σ2 S 2N 1ν=N1S2N1/σ2有するカイ二乗分布以下の自由度を。これを示すために、2つの事実に注意してください。N1
  1. 我々が定義する場合、 ここで、ZIN01、すなわち、標準正規確率変数の積率母関数Yは、で与えられる M YT

    Y=バツバツ¯2σ2=Z2
    ZN01YZ2 のMGFは、 m Z 2t
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2 Iは標準正規のPDF用いたFZ=E- Z 2 / 2/√を
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    及び、従って、 MYT=1-2T - N / 2ことを意味し、Yはでカイ二乗分布に従うN個の自由度f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. 場合およびY 2は独立しており、それぞれは、カイ二乗分布としてではなくと共に配布ν 1およびν 2次に、自由度W = Y 1 + Y 2つのカイ二乗分布を有するが配信ν 1 + ν 2度自由の(これはWのMGFを取得した結果です;これを実行してください!)Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

上記の事実、あなたが乗算することにより、サンプル分散場合ことに注意して、あなたが(いくつかの代数の後)を取得、 N - 1 S 2 = - N ˉ X - μ + ΣX I - μ 2 で割ると、したがって、σ 2N - 1 S 2N1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1

分散の信頼区間の計算。

分散の信頼区間を探すとき、限界を知りたいL1 そして L2

PL1σ2L2=1α
括弧内の不等式で遊んでみましょう。まず、除算S2N1
L1S2N1σ2S2N1L2S2N1
そして、2つのことを覚えておいてください:(1)統計 S2N1/σ2 has a chi-squared distribution with N1 degrees of freedom and (2) the variances is always greather than zero, which implies that you can invert the inequalities, because
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
hence, the probability we are looking for is:
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
Note that S2(N1)/σ2χ2(N1). We want then,
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).

1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor

4
It would be helpful to modify this answer to include the very strong but unstated assumption that the sample variance follows a chi-squared distribution when the underlying data are independent and follow a normal distribution. Unlike the theory of the distribution of the sample mean, where in practice its sampling distribution will be approximately Normal to reasonable accuracy in many situations, this same asymptotic behavior tends not to happen with the sample variance (until sample sizes become extremely large).
whuber

1
Oops. So, so true! This actually came from a problem solution that I handed out to some students, where I state on the question all these assumptions. I edited the answer now.
Néstor

1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica

1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.