カールピアソンはどのようにしてカイ2乗統計量を算出しましたか?


14

ピアソンは、1900年に次のピアソンのカイ2乗統計をどのように思いついたのですか?

K=(OijEij)2Eij
その
Kχ2

彼はカイ二乗を念頭に置いて、メトリック(ボトムアップアプローチ)を考案しましたか、それとも統計を考案し、後でカイ二乗分布に従うことを証明しましたか(トップダウン)?K

彼がやなどの他の形式ではなく特定の形式を選択した理由を知りたい 、また、彼が正方形を分母で分割した理由。OjEj2|OjEj|



1
もちろん、使用できる統計をいくつでも持つことができます。セル数に応じて異なるサンプリング分布を作成する必要がありますが、代替手段は完全に問題ありません。この形式について便利なことの1つは、他の分布と一定の関係があることです。たとえば、kの2乗標準正規ランダム変量の合計の分布です。
GUNG -復活モニカ

回答:


23

ピアソンの1900年の論文は著作権が切れているため、オンラインで読むことができます

このペーパーは適合度テストに関するものであり、独立性や均質性のテストではないことに注意してください。

彼は多変量正規分布で作業を進め、カイ2乗は標準化された正規正規分布の2乗の和として生じます。

p160-161の議論から、彼が多項分布データにテストを適用することについて明確に議論していることがわかります(彼はどこでもその用語を使用しているとは思いません)。彼は多項の近似多変量正規性を理解しているようです(確かに彼はマージンがほぼ正常であることを知っています-それは非常に古い結果です-論文で述べられているので、平均、分散、共分散を知っています); 私の推測では、そのようなもののほとんどはすでに1900年までに古いものです。(カイ2乗分布自体は1870年代半ばにHelmertによって機能していたことに注意してください。)

次に、p163の最下部までに、カイ二乗統計を「適合度の尺度」として導き出します(統計自体は多変量正規近似の指数に現れます)。

その後、彼はp値を評価する方法を議論し続け、その後、43.87を超えるの上部テール領域を0.000016として正しく与えます。[しかし、彼はその段階でパラメータ推定の自由度を調整する方法を正しく理解していなかったので、彼の論文のいくつかの例は高すぎるdfを使用していることに留意する必要があります]χ122

*(フィッシャーおよびネイマンピアソンのテストパラダイムは存在しないことに注意してください。それにもかかわらず、彼は既にp値の概念を適用していることが明確にわかります。)

彼は明示的にような用語を書いていないことに注意してください。代わりに、予想カウントとなどを使用して観測された数量について、、などを書き込みます。次に、(下半分p160)を定義し、各セルのを計算します(式(xv)p163およびp167の下部にある表の最後の列を参照)...別の表記法で。OE2/Em1m2m1e=mme2/m

カイ2乗検定を理解する現在の方法の多くはまだ整っていませんが、その一方で、かなりの部分がすでにあります(少なくとも、何を探すべきかを知っている場合)。1920年代(およびそれ以降)に多くのことが起こり、これらのことに対する見方が変わりました。


多項の場合にで除算する理由については、多項式の個々の成分の分散がより小さくても、共分散を考慮すると、単にで除算するのと同等になります。簡素化。EEE


編集に追加:

1983年のPlackettによる論文は、かなりの歴史的背景と、この論文へのガイドのようなものを提供します。ぜひご覧ください。JStor経由で無料でオンラインになっているようです(サインインした場合)。そのため、機関からアクセスする必要はありません。

プラケット、RL(1983)、
「カールピアソンとカイ二乗検定」、
International Statistics Review
Vol。51、No. 1(4月)、pp。59-72


1
この記事を読み直しただけで、毎回、追加の洞察を得ることができます。@Glen_bすばらしい答えをありがとう。Eによる除算が共分散を調整する方法についての説明で追加の質問をする場合、その点について詳しく説明するか、この点について説明しているリソースを教えてください。「正規化」が必要な理由を直感的に理解できますが、数学的な証明で直感を裏付けたいと思います。
アルビー

1
共分散を調整する方法に関しては、この回答これについて少し議論し、二項の分散と両方の寄与を分けることとの関係を示す2つのカテゴリ(二項の場合)で数行の導出を行いますによる成功と失敗のカイ2乗。最後に何か別のものを探しているように見えますが、もしあなたがそうだとしたら、それが何なのかよくわかりません。言い換えることはできますか?Ei
Glen_b -Reinstateモニカ

1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)

リンク@Glen_bをありがとう。投稿を読んだ後、今ではもっとはっきりしている!私は、各セルの初期差異を調整するために分母があると単純に考えていたので、「正規化」という用語を使用していましたが、あなたの投稿を読んで、私は完全に調子が悪いことに気付きました。
アルビー

残念ながら、「正規化」という言葉には、統計に関連する少なくとも3つの異なる意味があります。装飾されていない、私は通常、「0を意味する標準化と標準偏差1」を意味するためだけに使用しますが、他の人々は、何らかの基準に従ってベクトルを正規化するという意味で「正規化」を意味するために、または近似正規性に変換するためにそれを使用します。ここではバグのようですので、今ではそれを避けるために知っておくべきです。
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.