カイ2乗検定では、予想されるカウントを分散として使用するのはなぜですか?


18

ではテスト、正規分布のそれぞれの標準偏差(差異としてすなわち期待カウント)として期待数の平方根を使用するための根拠は何ですか?これについて議論できるのはhttp://www.physics.csbsju.edu/stats/chi-square.htmlだけであり、ポアソン分布に言及しているだけです。χ2

私の混乱の簡単な説明として、2つのプロセスが大きく異なるかどうかをテストしている場合、1つは非常に小さな変動で500 Asと500 Bを生成し、もう1つは非常に小さな分散で550 Asと450 Bを生成します551 Asおよび449 Bs)?ここでの分散は明らかに単に期待値ではありませんか?

(私は統計学者ではないので、非専門家がアクセスできる答えを本当に探しています。)


これはおそらく、確率変数の分散がであるという事実と、正しい分布を得るために統計に2を掛けなければならないという事実とおそらく関係があります(尤度比テスト)。おそらく誰かがこれについてもっと正式に知っているでしょう。χk22k
マクロ

回答:


16

多くのテスト統計の一般的な形式は

observedexpectedstandarderror

通常の変数の場合、標準誤差は既知の母分散(z-stats)またはサンプルからの推定値(t-stats)に基づいています。二項式では、標準誤差は比率(検定の仮説比率)に基づいています。

分割表では、各セルのカウントは、平均が期待値(ヌルの下)に等しいポアソン分布に由来すると考えることができます。ポアソン分布の分散は平均に等しいため、標準誤差の計算にも期待値を使用します。代わりに観測値を使用する統計を見ましたが、理論的な正当性が低く、分布にも収束しません。χ2


1
私は、ポアソンとの関係に固執している/各セルがポアソンから来ると考えられる理由を理解しています。ポアソンの平均/分散を知っており、レートが与えられたイベントの数を表していることを知っています。また、カイ2乗分布は標準(分散1)正規分布の平方和を表すことも知っています。私は、期待値を各法線の「広がり」の仮定として再利用することの正当化に頭を包み込もうとしています。これは、すべてをカイ二乗分布に適合させるため、または正規化を「標準化」するためだけですか?
ヤン

3
いくつかの問題がありますが、ポアソン分布は、物事がかなり独立している場合に一般的です。テーブルの合計が固定されていると考えてテーブルのセル間で値を分配するのではなく、テーブルのセルを1つだけ考えて、そのセルに入る応答の数を確認するために一定の時間待っている、これはポアソンの一般的な考え方に適合します。大きな手段では、ポアソンを正規分布で近似できるため、検定統計量はポアソンの正規近似として意味を持ち、変換します。χ2
グレッグスノー

1
(+1)セルカウントが平均独立したポアソン確率変数であったとます。そして、確かに、ディストリビューションで。しかし、これに関する問題は、がパラメーターであり、実際に観測されたカウントではないことです。観測された総数はです。しかし、ほぼ確実にSLLNすることにより、いくつかのより多くの仕事は何かを実行可能にヒューリスティックを回すために行われなければなりません。Xi,,Xknπii=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
枢機

私の混乱の簡単な説明として、2つのプロセスが大きく異なるかどうかをテストしている場合、1つは非常に小さな変動で500 Asと500 Bを生成し、もう1つは非常に小さな分散で550 Asと450 Bを生成します551 Asおよび449 Bs)?ここでの分散は明らかに単に期待値ではありませんか?
ヤン

1
@Yang:あなたが記述していないデータは、カイ2乗統計の使用の基礎となるモデルに準拠していないようです。標準モデルは、多項サンプリングの 1つです。厳密に言えば、(無条件の)ポアソンサンプリングでさえカバーされていません。これはグレッグの答えが仮定していることです。私は以前のコメントでこれを参照します(おそらく鈍い)。
枢機

17

最も単純なケースを処理して、最も直感的なものを提供してみましょう。レッツ持つ離散分布からのiidサンプルであっても成果。してみましょうそれぞれ特定の結果の確率も。カイ2乗統計の(漸近的)分布に興味があり ここで、は、番目の結果の予想カウント数です。X1,X2,,Xnkπ1,,πk

X2=i=1k(Sinπi)2nπi.
nπii

挑発的なヒューリスティック

定義ように、ここで。Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

以来、ある次にによって、中心極限定理、 したがって、ます。SiBin(n,πi)

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

さて、場合(そうでないもの)(漸近的に)独立していた、我々はと主張している可能性があり 漸近的だった分布します。ただし、は決定的関数であるため、変数は独立していない可能性があることに注意してください。TiiTi2χk2Tk(T1,,Tk1)Ti

したがって、何らかの方法でそれらの間の共分散を考慮する必要があります。これを行うための「正しい」方法は、代わりにを使用することであり、のコンポーネント間の共分散も漸近分布をと考えていたものから変更することがわかります。 、実際には、です。UiUχk2χk12

これについての詳細は次のとおりです。

より厳格な治療

実際、 forであることを確認するのは難しくありません 。Cov(Ui,Uj)=πiπjij

したがって、の共分散は 。は対称かつべき等、つまりことに注意してください 。したがって、特に、標準正規成分がある場合、。(注意:この場合の多変量正規分布は縮退しています。)U

A=IππT,
π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

現在、多変量中心極限定理により、ベクトルは平均と共分散漸近多変量正規分布があります。U0A

したがって、はと同じ漸近分布を持つため、の同じ漸近 分布はの分布と同じです。によって連続写像定理UAZX2=UTUZTATAZ=ZTAZ

ただし、は対称かつべき等であるため、(a)直交固有ベクトルを持ち、(b)その固有値はすべて0または1であり、(c)1の固有値の多重度は。これは、はとして分解できることを意味します。ここで、は直交で、は対角行列で、が対角線および残りの対角線エントリはゼロです。Arank(A)AA=QDQTQDrank(A)

したがって、はランクであるため、は分布で なければなりません。ZTAZχk12Ak1

その他の接続

カイ2乗統計量は、尤度比統計量とも密接に関連しています。実際、これはRaoスコア統計であり、尤度比統計のテイラー級数近似と見なすことができます。

参照資料

これは経験に基づく私自身の開発ですが、明らかに古典的なテキストの影響を受けます。詳細を確認するのに適した場所は

  1. GAF Seber and AJ Lee(2003)、線形回帰分析、第2版、Wiley。
  2. E.レーマンとJ.ロマーノ(2005)、統計的仮説のテスト、第3版、スプリンガー。特にセクション14.3
  3. DR CoxとDV Hinkley(1979)、理論統計、チャップマンとホール。

(+1)Agresti、A.(2002)のような標準のカテゴリデータ分析テキストでこの証明を見つけるのは難しいと思います。カテゴリーデータ分析。ジョン・ワイリー。
suncoolsu

コメントありがとう。Agrestiにはカイ2乗統計量の扱いがあることは知っていますが、彼がそれをどの程度取ったかは覚えていません。彼は、尤度比統計量との漸近的等価性に単に訴えるかもしれません。
枢機

上記の証拠がテキストに含まれているかどうかはわかりません。他の場所では、完全な(縮退)共分散行列とそのプロパティの使用を見たことはありません。通常の処理では、最初の座標の(非縮退)分布を調べ、逆共分散行列(良い形式ですがすぐには明らかではないもの)といくつかの(やや)退屈な代数を使用して結果を確立します。k1
枢機

あなたの答えは、のセットを定義することから始まりますが、の観点から統計を定義します。答えに、開始時に定義した変数と統計の変数がどのように関連しているかを示すものを含めることができますか?XS
Glen_b-モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.