p値を最初に使用/発明したのは誰ですか？

私はp値に関する一連のブログ投稿を書きたいと思っており、それがすべて始まったところに戻るのは面白いと思いました-それはピアソンの1900年の論文のようです。その論文に精通しているなら、これは適合度テストをカバーしていることを覚えているでしょう。

ピアソンは、p値に関しては自分の言語について少し緩いです。彼は、p値の解釈方法を説明するときに、「オッズ」を繰り返し使用します。12個のサイコロの繰り返しロールの結果について話すときたとえば、p.168に、彼は「言うP = 0.0000016に私たちをリードしている...、またはオッズは 62499ランダム上の偏差のようなシステムに対して1にあります選択。そのようでオッズサイコロが高いポイントへの偏りを示すと結論するのが妥当だろう。」

この記事では、彼はメリマンによる最小二乗に関する1891年の本を含む、以前の研究に言及しています。

しかし、Pearsonはp値の計算を行っています（カイ二乗適合度検定は正しくありません）。

ピアソンはp値を考えた最初の人でしたか？p値を検索すると、Fisherが言及されます-彼の仕事は1920年代でした。

編集：そして、ラプラスについて言及してくれてありがとう-彼は帰無仮説に対処しなかったようです（ピアソンは暗黙のうちにそうしているように見えますが、彼は1900年の論文でその用語を使ったことはありません）。ピアソンは適合度テストを検討しました：カウントが不偏プロセスから派生したと仮定すると、観測されたカウント（およびより逸脱したカウント）が仮定された分布から生じる確率はどのくらいですか？

彼の確率/オッズの扱い（確率をオッズに変換する）は、彼が帰無仮説の暗黙の考えに取り組んでいることを示唆しています。重要なことに、彼はまた、x ^ 2値から生じる確率は、彼の計算されたp値に関して「これよりもありえない、またはよりありえない偏差のシステムに対して」オッズを示していると述べています。

Arbuthnotはそこまで行きましたか？

コメントを回答としてお気軽にお寄せください。ディスカッションを見るといいでしょう。

p-value history ronald-fisher

— ミシェル
ソース

：この記事では、それが下限設定しますラプラス、によって使用された示唆en.wikipedia.org/wiki/...

両方の性の誕生で観察された一定の規則性から取られた、神の摂理の議論のアーバスノット（1710）は、おそらく数えられると主張するかもしれない。彼はコインモデル（「クロスアンドパイル」）を使用し、最初にテールと正確に同じ数の頭を獲得する確率を計算してから、「真ん中の条件の次にいくつかの条件を取り入れ、1つに傾く」と指摘します。しかし、彼らが四肢まで届かないことは非常にありそうもないことです（単なるチャンスであるならば）。彼はそこにp値の概念に近づいているのを見ることができます。

— Glen_b -Reinstateモニカ

不思議なことに、彼のリストjstor.org/stable/2685564?seq=1#page_scan_tab_contentsの Davidは、1943年にデミングが著書「統計のデータ調整」でP値という用語を初めて使用したことを示唆しています。用語ではなく概念の後にいることは知っていますが、用語がいつ登場したのかは興味深いと思います。

— mdewey

誰が発明したかを知るのは難しいかもしれません。しかし、現在p値を使用しているのは、フィッシャーです。

— カルロスチネリ

p値を「特定の仮説が正しいと仮定して、特定の範囲内の結果を得る確率（1900年にピアソンが使用したような計算された統計の場合は、ある値またはより極端な場合が多い）」と定義しますか？

— セクストゥスエンピリカス

回答:

ジェイコブ・ベルヌーイ（〜1700）-ジョン・アーバスノット（1710）-ニコラウス・ベルヌーイ（1710年代）-アブラハム・ド・モアブル（1718）

Arbuthnot ¹の場合は、^{下記の注の説明を参照してください}。この考え方をさらに拡張した251-254ページの de MoivreのDoctrine of Chance（1718）で読むこともできます。

De Moivreは2つのステップ/前進を行います。

ベルヌーイ分布の正規近似。特定の範囲内または範囲外の結果の確率を簡単に計算するのに役立ちます。Arbuthnotのケースに関する例の前のセクションで、de Moivreはベルヌーイ分布の近似（現在はガウス/正規分布と呼ばれています）について書いています。この近似により、p値を簡単に計算できます（Arbuthnotではできませんでした）。
Arbuthnotの議論の一般化。彼は、「この推論方法は、他の非常に興味深い問い合わせにも有用に適用できる」と述べています。（これは、引数の一般的な適用可能性を見るためにde Moivreに部分的な信用を与えるかもしれません）

ド・モアブルによると、ヤコブ・ベルヌーイは、彼のアルス予想でこの問題について書きました。ド・モアブルはこれを英語で「実験の繰り返しにより、事象の確率が与えられた確率に無限に近づくことができる限界を割り当てる」と命名しているが、ベルヌーイの原文はラテン語である。Bernoulliがp値のような概念について書いているのか、それとも大数の法則のようなものについて書いているのかを理解するのに十分なラテン語を私は知らない。興味深いのは、ベルヌーイがこれらのアイデアを20年間持っていたと主張していることです（また、1713年の彼の死の後に1713年に出版されたので、Arbuthnotの@Glen_bによるコメントで言及された1710年より前のようです）。
ド・モアブルのインスピレーションの1つの源はニコラウス・ベルヌイリでした。ニコラウス・ベルヌイリは1713年/ 1713年に、生まれた男の子の数が7037以上7336以下である確率を計算しました。男の子の確率は18/35です。

（この問題の数値は、ロンドンの80年の統計に基づいています。彼は、これについて、MontmortのEssay d'analyse sur les jeux deazarの第2版（1713）に掲載されたPierre Raymond de Montmortへの手紙で書きました。）

私がまったく従わなかった計算では、43.58から1の確率になりました（7037から7363までの2項分布のすべての項の確率を合計するコンピューターを使用すると、175：1になるので、彼の仕事/計算を誤って解釈した可能性があります）。）

^{1：ジョン・アーバスノットは、両性の誕生（1710）で観察された一定の規則性からとった、神の摂理をめぐる議論でこの事件について書いた。}

{\frac{1}{2}}^{82} 〜 \frac{1}{4 8360 0000 0000 0000 0000 0000}

$\frac{1}{2}^{82} \sim \frac{1}{4 \,8360\,0000\,0000\,0000\,0000\,0000}$

^{Arbuthnot：Aのチャンスは、割り当て可能な分数より少なくとも少なく、無限に近い量になります。そこから、それが支配するのは偶然ではなく芸術であるということになる。}

StackExchangeStrikeによって書かれました。

— Sextus Empiricus
ソース

おそらくアンドリュー・デイルによる逆確率の歴史がもっと役立つかもしれません。（ベルヌーイの翻訳を探して、私は彼がド・モアブルが言及した関連箇所を翻訳したことがわかりました）。初期の頃、この逆確率は、現在はよりベイジアン手法と考えられており、解釈と使用においてかなり頻繁なツールであったかもしれません。

— セクストスエンピリカス

正式に開発された統計の日付〜1600-1650をサポートする3つのサポートリンク/引数があり、確率の単純な使用についてははるかに早いです

仮説テストを基礎として受け入れ、確率を捕食する場合、オンライン語源辞典はこれを提供します：

" 仮説（n。）

1590年代、「特定の声明」。1650年代、「仮定として仮定され、当然の前提となる命題」、中期フランスの仮説から、ラテン語の後期の仮説から、ギリシャの仮説「基盤、基礎、基礎」から直接、したがって、拡張された使用において「議論の根拠」「仮定」、「文字通り「下に置く」、hypo-「under」から（hypo-を参照）+論文「a配置、命題」（PIEルートの重複した形式* dhe-「to set、put」から）論理の用語。より狭い科学的感覚は1640年代からのものです。」

ウィクショナリーの特典：

「1596年以降、中期フランスの仮説、後期ラテン語の仮説、古代ギリシャ語のὑπόθεσις（hupóthesis、「基底、議論の根拠、推測」）、文字通り「下に置く」、itselfποτίθημι（hupotíthēmi、前、提案」）、fromπό（hupó、「below」）+τίθημι（títhēmi、「I put、place」）から。

名詞仮説（複数の仮説）

（科学）大まかに使用される、観測、現象、または科学的問題を説明する暫定的な推測であり、さらなる観察、調査、および/または実験によってテストできます。芸術の科学用語として、添付の引用を参照してください。理論と引用された引用と比較してください。引用▲

2005年、ロナルドH.パイン、http：//www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism、2005年 10月15日：

私たちの多くは、科学者が何かを解明しようとする過程で、まず「仮説」（推測または推測-「教育された」推測でさえない）を最初に思い付くと教えられています。... [しかし]科学では、「仮説」という言葉は、何らかの現象が存在または発生する理由について、理にかなった、理にかなった、知識に基づいた説明にのみ使用されるべきです。仮説はまだテストされていない可能性があります。すでにテストされている可能性があります。偽造された可能性があります。テスト済みではあるが、まだ偽造されていない可能性があります。または、改ざんされることなく無数の方法でテストされた可能性があります。そして、それは科学界によって広く受け入れられるようになるかもしれません。科学で使用される「仮説」という言葉を理解するには、Occamの基礎となる原則を理解する必要があります。s「偽造可能性」に関するカミソリとカール・ポッパーの考え-立派な科学的仮説は、原則として、間違って証明される「可能」でなければならないという概念を含む（実際に間違っている場合）真実であると証明できるものはありません。科学で使用される「仮説」という言葉の適切な理解の1つの側面は、仮説のほんのわずかな割合だけが理論になる可能性があるということです。

上の確率と統計ウィキペディアの申し出：

「データ収集

サンプリング

国勢調査データ全体を収集できない場合、統計学者は特定の実験計画と調査サンプルを開発してサンプルデータを収集します。統計自体も、統計モデルによる予測と予測のためのツールを提供します。サンプリングされたデータに基づいて推論を行うというアイデアは、人口の推定と生命保険の前駆体の開発に関連して1600年代中頃に始まりました。（参照：Wolfram、Stephen（2002）。新しい種類の科学。WolframMedia、Inc. p。1082. ISBN 1-57955-008-8）。

サンプルを母集団全体のガイドとして使用するには、母集団全体を本当に表すことが重要です。代表的なサンプリングにより、推論と結論がサンプルから母集団全体に安全に拡張できることが保証されます。大きな問題は、選択されたサンプルが実際に代表的である範囲を決定することにあります。統計は、サンプルおよびデータ収集手順内のバイアスを推定および修正する方法を提供します。また、研究の最初にこれらの問題を軽減し、母集団に関する真理を見分ける能力を強化できる実験の実験計画法もあります。

サンプリング理論は、確率論の数学的規律の一部です。確率は、サンプル統計のサンプリング分布、より一般的には統計手順の特性を調べるために数学統計で使用されます。統計的手法の使用は、検討中のシステムまたは母集団が手法の仮定を満たしている場合に有効です。古典的な確率理論とサンプリング理論の観点の違いは、おおよそ、確率理論はサンプルに関連する確率を推定するために総人口の与えられたパラメーターから始まるということです。ただし、統計的推論は反対方向に移動します。つまり、サンプルから、より大きな母集団または総母集団のパラメーターに帰納的に推論します。

「Wolfram、Stephen（2002）。A New Kind of Science。Wolfram Media、Inc. p。1082」から：

「統計分析

•履歴。偶然のゲームのオッズのいくつかの計算は、すでに古代で行われました。確率の組み合わせ列挙に基づいた1200年代頃からますます複雑な結果が神秘主義者と数学者によって得られ、1600年代半ばから1700年代初期に体系的に正しい方法が開発されました。サンプリングされたデータから推論を行うという考えは、人口の推定と生命保険の前駆体の開発に関連して1600年代半ばに生まれました。観測のランダムエラーと想定されるものを修正するために平均化する方法は、主に天文学で1700年代半ばに使用され始めましたが、最小2乗近似と確率分布の概念は1800年頃に確立されました。個人間のランダムな変動は1800年代半ばに生物学で使用され始め、現在統計分析に使用されている多くの古典的な方法は、農業研究の文脈で1800年代後半から1900年代初期に開発されました。物理学では、基本的に確率モデルが1800年代後半の統計力学と1900年代初頭の量子力学の導入の中心でした。

その他のソース：

ConcatoとHartiganによる記事「P値：提案から迷信まで」には、以下を説明する紹介があります。

「このレポートは、主に非数学的な用語で、p値を定義し、仮説検定へのp値アプローチの歴史的起源を要約し、臨床研究のコンテキストでp≤0.05のさまざまなアプリケーションを説明し、p≤の出現について説明しますゲノム統計分析のしきい値としての5×10-8およびその他の値。」

「歴史的起源」セクションには次のように記載されています。

$^{[1]}$

[1]。Arbuthnott J.両性の誕生で観察された一定の規則性から取られた、神のプロビデンスに対する議論。フィルトランス1710; 27：186–90。doi：10.1098 / rstl.1710.0011 1710年1月1日公開

フィッシャー法とネイマンピアソンウォルドに関するSEサイトで、さらに議論があります。フィッシャーとネイマンピアソンの統計的検定へのアプローチの「ハイブリッド」は、実際には「インコヒーレントミッシュマッシュ」ですか。。
Journal of Epidemiology and Biostatistics（2001）Vol。6、No。2、193〜204、セン：「意見：P値を2つの歓声？」これを導入部で説明します。

$^{1–4}$ $^{5–7}$ $^8$ $^9$ $^{10,11}$

私はP値のみの限定的な防御を提供します。...」。

参照資料

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings：「ピアソンは1900年にリバイバルをしたのですか、それともこの（頻度論者）の概念は以前に現れたのですか？より多くのソースがあります）？

アメリカ統計協会には、統計の歴史に関するウェブページがあり、この情報とともに、「統計のタイムライン」と題されたポスター（以下に一部再現）があります。

AD 2：漢王朝の間に完了した国勢調査の証拠は生き残っています。
1500年代：Girolamo Cardanoは、異なるサイコロの確率を計算します。
1600年代：エドモンドハレーは死亡率を年齢に関連付け、死亡率表を作成します。
1700年代：トーマス・ジェファーソンが最初の米国国勢調査を指揮。
1839年：アメリカ統計協会が設立されました。
1894：「標準偏差」という用語は、カールピアソンによって導入されました。
1935：RA FisherがDesign of Experimentsを発行します。

ウィキペディアのウェブページ「多数の法則」の「歴史」セクションでは、次のように説明しています。

「イタリアの数学者ジェロラモカルダノ（1501〜1576）実証統計の精度は試行回数とともに改善する傾向があることを証明せずに述べた。その後、これは多数の法則として形式化されました。LLNの特別な形式（バイナリランダム変数用）は、ヤコブベルヌーイによって最初に証明されました。1713年にArs Conjectandi（The Art of Conjecturing）で発表された十分に厳密な数学的証明を開発するのに20年以上かかりました。これは、ヤコブ・ベルヌーイのneダニエル・ベルヌーイにちなんで名付けられたベルヌーイの原理と混同しないでください。1837年、SDポアソンはさらに「la loi des grands nombres」（「多数の法則」）という名前でそれを説明しました。その後、両方の名前で知られていましたが、

ベルヌーイとポアソンが努力を発表した後、チェビシェフ、マルコフ、ボレル、カンテリ、コルモゴロフ、キンチンなど、他の数学者も法律の改善に貢献しました。」

質問：「ピアソンはp値を最初に考えた人でしたか？」

いいえ、おそらくそうではありません。

「P値に関するASAの声明：コンテキスト、プロセス、および目的」（2016年6月9日）、WassersteinおよびLazar、doi：10.1080 / 00031305.2016.1154108には、p値の定義に関する公式声明があります（ p値を利用または拒否するすべての分野で合意されていない疑い）

" 。p-Valueとは何ですか？

非公式には、p値は、指定された統計モデルの下で、データの統計的な要約（たとえば、2つの比較グループ間のサンプル平均差）が観測値以上になる確率です。

3.原則

...

6. p値だけでは、モデルまたは仮説に関する証拠の適切な尺度は提供されません。

研究者は、文脈や他の証拠のないp値は限られた情報しか提供しないことを認識すべきです。たとえば、0.05に近いp値を単独で使用すると、帰無仮説に対して弱い証拠しか得られません。同様に、比較的大きいp値は帰無仮説を支持する証拠を意味しません。他の多くの仮説は、観測データと同等またはそれ以上の一貫性があります。これらの理由により、他のアプローチが適切で実行可能である場合、データ分析はp値の計算で終了すべきではありません。」

ピアソンよりもずっと前に帰無仮説の棄却が発生した可能性があります。

帰無仮説検定の初期例に関するウィキペディアのページ：

帰無仮説の初期選択

ポール・メールは、帰無仮説の選択の認識論的重要性はほとんど認められていないと主張した。帰無仮説が理論によって予測される場合、より正確な実験は、基礎となる理論のより厳しいテストになります。帰無仮説が「差異なし」または「効果なし」にデフォルト設定されている場合、より正確な実験は、実験の実行を動機づけた理論のそれほど厳しくないテストです。したがって、後者のプラクティスの起源の調査は有用かもしれません：

1778年：ピエール・ラプラスは、ヨーロッパの複数の都市で少年と少女の出生率を比較しました。彼は、「これらの可能性がほぼ同じ比率にあると結論付けるのは自然です」と述べています。したがって、「従来の知恵」が与えられれば、男の子と女の子の出生は等しくあるべきであるというラプラスの帰無仮説。

1900年：カールピアソンはカイ二乗検定を開発して、「与えられた母集団から引き出されたサンプルを与えられた形式の周波数曲線が効果的に記述するかどうか」を決定します。したがって、帰無仮説は、人口は理論によって予測された何らかの分布によって記述されるというものです。彼は例として、ウェルドンのサイコロの投げデータの5と6の数字を使用しています。

1904：カールピアソンは、結果が特定のカテゴリ因子に依存しているかどうかを判断するために、「偶発性」の概念を開発しました。ここで、帰無仮説は、デフォルトでは2つのことは無関係であるということです（例えば、瘢痕形成と天然poによる死亡率）。この場合の帰無仮説は、理論や従来の知恵ではもはや予測されていませんが、代わりにフィッシャーなどが「逆確率」の使用を却下する無関心の原理です。

ある人が帰無仮説を却下したと信じられているにもかかわらず、「弱い数学的な立場に基づいた懐疑論の発見」とラベル付けすることは合理的ではないと思います。

— ロブ
ソース

私はダニエル・ベルヌイから作品を探してきました（第2版は1808ですが、作品自体は1734年からです） "RECHERCHES PHYSYQUES ET ASTRONOMIQUES、sur leproblèmeproposépour la seconde fois par l'AcadémieRoyale des Sciences de Paris：Quelle est la原因は、ソビエトオートソリュードソンアックスの計画に基づいて、計画と軌道の関係のある計画を軌道に乗せ、他の軌道は、他の軌道とは異なります。 ch / zut / wihibe / content / titleinfo / 13426461

— Sextus Empiricus

それは、6つの惑星すべての傾きが同じ17セクターで発生する確率のようなものに言及しています。

1 : 17^{5}

$1:17^5$ 。それは確率の計算ですが、それほど多くのp値ではありません。

— セクストスエンピリカス