ピアソンは、1900年に次のピアソンのカイ2乗統計をどのように思いついたのですか?
彼はカイ二乗を念頭に置いて、メトリック(ボトムアップアプローチ)を考案しましたか、それとも統計を考案し、後でカイ二乗分布に従うことを証明しましたか(トップダウン)?
彼がやなどの他の形式ではなく特定の形式を選択した理由を知りたい 、また、彼が正方形を分母で分割した理由。
ピアソンは、1900年に次のピアソンのカイ2乗統計をどのように思いついたのですか?
彼はカイ二乗を念頭に置いて、メトリック(ボトムアップアプローチ)を考案しましたか、それとも統計を考案し、後でカイ二乗分布に従うことを証明しましたか(トップダウン)?
彼がやなどの他の形式ではなく特定の形式を選択した理由を知りたい 、また、彼が正方形を分母で分割した理由。
回答:
ピアソンの1900年の論文は著作権が切れているため、オンラインで読むことができます。
このペーパーは適合度テストに関するものであり、独立性や均質性のテストではないことに注意してください。
彼は多変量正規分布で作業を進め、カイ2乗は標準化された正規正規分布の2乗の和として生じます。
p160-161の議論から、彼が多項分布データにテストを適用することについて明確に議論していることがわかります(彼はどこでもその用語を使用しているとは思いません)。彼は多項の近似多変量正規性を理解しているようです(確かに彼はマージンがほぼ正常であることを知っています-それは非常に古い結果です-論文で述べられているので、平均、分散、共分散を知っています); 私の推測では、そのようなもののほとんどはすでに1900年までに古いものです。(カイ2乗分布自体は1870年代半ばにHelmertによって機能していたことに注意してください。)
次に、p163の最下部までに、カイ二乗統計を「適合度の尺度」として導き出します(統計自体は多変量正規近似の指数に現れます)。
その後、彼はp値を評価する方法を議論し続け、その後、43.87を超えるの上部テール領域を0.000016として正しく与えます。[しかし、彼はその段階でパラメータ推定の自由度を調整する方法を正しく理解していなかったので、彼の論文のいくつかの例は高すぎるdfを使用していることに留意する必要があります]
*(フィッシャーおよびネイマンピアソンのテストパラダイムは存在しないことに注意してください。それにもかかわらず、彼は既にp値の概念を適用していることが明確にわかります。)
彼は明示的にような用語を書いていないことに注意してください。代わりに、予想カウントとなどを使用して観測された数量について、、などを書き込みます。次に、(下半分p160)を定義し、各セルのを計算します(式(xv)p163およびp167の下部にある表の最後の列を参照)...別の表記法で。
カイ2乗検定を理解する現在の方法の多くはまだ整っていませんが、その一方で、かなりの部分がすでにあります(少なくとも、何を探すべきかを知っている場合)。1920年代(およびそれ以降)に多くのことが起こり、これらのことに対する見方が変わりました。
多項の場合にで除算する理由については、多項式の個々の成分の分散がより小さくても、共分散を考慮すると、単にで除算するのと同等になります。簡素化。
編集に追加:
1983年のPlackettによる論文は、かなりの歴史的背景と、この論文へのガイドのようなものを提供します。ぜひご覧ください。JStor経由で無料でオンラインになっているようです(サインインした場合)。そのため、機関からアクセスする必要はありません。
プラケット、RL(1983)、
「カールピアソンとカイ二乗検定」、
International Statistics Review、
Vol。51、No. 1(4月)、pp。59-72