p値に関して、なぜ1%と5%ですか?なぜ6%または10%ではないのですか?


80

については、なぜ%と%がのゴールドスタンダードであると思われるのでしょうか。%や%のような他の値はなぜですか?15"statistical significance"610

これには根本的な数学的理由がありますか、それとも単に広く行われている慣習ですか


2
誰もが12本の指を持っている場合はどうなりますか?10進数ではなく12進数をカウントします。つまり、「1%」は1/144または0.0069444444になります。
コンタンゴ

回答:


77

以下のリファレンスを確認すると、いくつかの一般的な要素がありますが、背景にはかなりのバリエーションがあります。

これらの数字は、少なくとも部分的にはフィッシャーのコメントに基づいています。

(1/20のレベルを議論しながら)

この点を、偏差が有意であると見なされるかどうかを判断する際の限界と考えると便利です。したがって、標準偏差の2倍を超える偏差は、正式に重要と見なされます。

Fisher、RA(1925)統計的手法、研究労働者p。47

一方で、彼は時々もっと広かった:

20分の1の確率が十分に高くないと思われる場合は、必要に応じて50分の1(2パーセントポイント)または100分の1(1パーセントポイント)で線を引きます。個人的には、作家は重要度の低い基準を5%ポイントに設定し、このレベルに到達しないすべての結果を完全に無視することを好みます。科学的事実は、適切に設計された実験このレベルの有意性をほとんど与えない場合にのみ、実験的に確立されたとみなされるべきです。

Fisher、RA(1926) 野外実験の配置。農業省のジャーナル、p。504

フィッシャーはまた、彼の本のテーブルの1つに5%を使用しました-しかし、彼の他のテーブルのほとんどは、より多様な有意水準を持っていました

彼のコメントのいくつかは、さまざまな状況で多少厳密な(すなわち、アルファレベルが低いまたは高い)アプローチを示唆しています。

上記のような議論は、他の「標準」値を使用したい場合に、5%および1%の有意水準(および場合によっては10%、2%、0.5%など)に焦点を当てたテーブルを作成する傾向につながりました。

ただし、この論文では、CowlesとDavisは、5%の使用-または少なくともそれに近いもの-がFisherのコメントよりも先に戻ることを示唆しています。

要するに、多くの人が多くの問題に対して正しい種類の球場にいると感じているように見えますが、5%(およびそれより少ない程度で1%)の使用はかなりarbitrary意的な慣例です。

いずれかの理由がありません特定の値は、一般的に使用されるべきですが。

その他の参照:

ダラル、ジェラルドE(2012)。統計実践の小さなハンドブック。 - なぜ0.05?

スティグラー、スティーブン(2008年12月)。「フィッシャーと5%レベル」。チャンス21(4):12. こちらから入手可能

(それらの間には、かなりの背景があります-少なくとも5%の一般的なボールパークで、2%から10%の間など、有意水準を考える良いケースがあるように見えます-多かれ少なかれしばらくの間。


36

私は非回答を与える必要があります(こちらと同じ):

「...確かに、神は.06を.05とほぼ同じくらい愛しています。nullに対する証拠の強さに対する証拠の強さを、pの大きさのかなり連続的な関数として神が見ることに疑念はありませんか?」(p.1277)

Rosnow、RL&Rosenthal、R.(1989)。心理学における統計的手順と知識の正当化。アメリカの心理学者、44(10)、1276-1284。pdf

論文には、この問題に関するいくつかの議論が含まれています。


9
そして、0.055はどうですか?:)
ニコ

33
誰が0.055を好きではない@nico
媒介物

18

5%には心理学が根底にあると思います。私がこれをどこで手に入れたか覚えていないことは言わなくてはなりませんが、これは私がすべての学部入門の統計クラスで使っていたエクササイズです。

パブで見知らぬ人があなたに近づき、「尾よりも頭を頻繁に作り出す偏ったコインを持っている。あなたが仲間から賭けてお金を稼ぐことができるように、私から買いたいですか?」と言うことを想像してください。あなたはためらいなく見てみることに同意し、コインを10回投げます。質問:それが偏っていることをあなたに納得させるために、頭/尾を着陸させる必要がありますか?

次に、手を見せます:スプリットが5/5である場合、コインがバイアスされると誰が確信しますか?4/6?3/7?2/8?1/9?0/10?まあ、最初の2つまたは3つは誰も納得させないでしょうし、最後の1つはすべての人を納得させるでしょう。しかし、2/8と1/9はほとんどの人を納得させるでしょう。ここで、二項表を検索すると、2/8は5.5%、1/9は1%です。QED。

誰かが現在イントロの学部課程を教えている場合、この演習も実行し、結果をコメントとして投稿することをお勧めします。そうすれば、メタ分析の結果を大量に蓄積し、少なくともアメリカで公開できます。統計学者の指導コーナー。および片側条件と両側条件を自由に変更してください!n

別の答えとして、Glen_b はフィッシャーが問題の深刻さに応じてこれらのマジックナンバーを変更すべきかどうかについての議論を引用しているので、それを作らないでください。 3か月か3日間で彼女を殺すので、コインを投げましょう」-これは、Andrew Gelmanでさえあまり好きではなかった悪名高いxkcdコミックと同じくらい愚かに見えるでしょう。

コインとゲルマンについて言えば、TASは、ゲルマンとノーランによる「あなたはダイスを装填することはできますが、コインにバイアスをかけることはできません」という非常に好奇心の強い論文を持っていました。テーブルトップでは、約半分の時間が頭を上げ、残りの時間は尻尾を上げるため、コインに深刻なバイアスをかける物理的メカニズムを見つけるのは困難です。(これは明らかにビール瓶のキャップで実験したパブ発の研究でした。)一方、ダイを装填するのは比較的簡単なことで、生徒に約1 cm /半分の運動をさせました。インチのダイをロードするためにそれらを求めて地元の趣味の店やサンドペーパーから木製のキューブ、それがロードされている私に証明-ピアソンの練習だったの割合とその電源のためのテスト。χ2


3
マジシャンはしばしばコインの反転を制御できます。統計学者-数学者-魔術師(好みに応じる)ペルシディアコニスは、このことでよく知られています(他にもたくさんあります)。
ニックコックス

@StasK-数年前、上記の2番目の段落の内容と同様の質問をしました。リンクは次のとおり
questions

法案、あなたは本質的に力について尋ねました。この質問は、テストのレベルに対応しています。
StasK

9

5%は、フィッシャーによって4.56%から四捨五入されたようです。これは、「平均プラス3またはマイナス3の推定誤差を超える曲線のテール領域」に対応しています(Hurlbert&Lombardi、2009)。

物語のもう1つの要素は、重要な称賛のある表の再現であるようです(Pearson et al。、1990; Lehmann、1993)。フィッシャーは、ピアソンから彼のテーブルを使用する許可を与えられませんでした(おそらく、ピアソンが自分の出版物を販売したため(Hurlbert&Lombardi、2009年)およびそれらの関係の問題のある性質のためです)。

Hurlbert、SH、およびLombardi、CM(2009年10月)。ネイマン・ピアソンの決定理論的枠組みの最終的な崩壊とneoFisherianの台頭。Annales Zoologici Fennici(Vol。46、No. 5、pp。311-349)で。フィンランド動物学および植物出版

レーマン、EL(1993)。フィッシャー、仮説をテストするネイマンピアソンの理論:1つの理論か2つの?Journal of the American Statistical Association、88(424)、1242-1249。

Pearson、ES、Gosset、WS、Plackett、RL、およびBarnard、GA(1990)。学生:ウィリアムシーリーゴセットの統計的伝記。オックスフォード大学出版局、米国。

参照:Gigerenzer、G.(2004)。マインドレス統計。Journal of Socio-Economics、33(5)、587-606。

Hubbard、R.、およびLindsay、RM(2008)。P値が統計的有意性検定で証拠の有用な尺度ではない理由。理論と心理学、18(1)、69-88。


7

答えは、統計よりもゲームの研究理論にあるように思えます。1%と5%が一般意識に焼き付いているということは、研究者が自分の素因に合った有意水準を効果的に選択できないことを意味します。p値が.055で、有意水準が6%に設定されている論文を見たとします-質問がされます。1%と5%は信頼できるコミットメントの形を提供します。


7
たぶん、しかし、研究者は回帰を操作せず、例えば、確立された5%のレベルの下で圧迫するために繰り返されるテストなどを使用しないと思いますか
-kirk

もちろんそれは可能であり、おそらく起こります。しかし、質問は約1%と5%でした。何か重要なものをいつ受け入れるかについての社会的慣習を確立しようとする試みのように思えます。これらはarbitrary意的ですが、個々の研究者にとってarbitrary意的ではなく、グループとしての研究者にとってarbitrary意的です。
推測

3
同意した、私はちょうどあなたがあなたのポストで推論したように、従来の有意水準を持っていることは質問がされるべきでないことを意味しないことを指摘していた。論文が従来のレベルで重要な結果をもたらすからといって、それが信頼できるというわけではありません!
カーク

ああ、私はゲーム理論の意味で信頼できる(またはしようとしている)を使用していました。脅威を信頼できるものにするのは、それが後戻りしたり後で考え直したりすることができないものであればです。この場合、個々の研究者は、他の任意のしきい値に降りるのに苦労します。
推測

2
@kirkが指すことは間違いなく起こります。 -hackingと呼ばれます。p
ニックスタウナー14

6

私の個人的な仮説は、0.05(または20分の1)が2のat / z値に関連付けられている(2に非常に近い)ということです。ラウンド数の他の合流点はありません。


7
これが正しいとは思えません。もちろん、「ラウンド数のコンフルエンス」があります。たとえば、またはクリティカル値を使用しないのはなぜですか?さらに、1世紀前に重要な価値の大規模なテーブルを作成することをためらう人はいませんでした。Z = 3Z=1Z=3
whuber

9
それどころか、彼らは素敵な数字を与えます!正規分布のためのチャンスは約ある、、、およびのための。これらのすべての近似値は、1つの有効数字よりも正確であり、「20分の1」は束の中で最悪です(22分の1は真実にはるかに近いでしょう)。1 / 20 1 / 400 1 / 16000 Z = 1 2 3 41/31/201/4001/16000z=1,2,3,4
whuber

1
:)うーん...良い点。ただし、カットオフとして使用するものに制限する必要があります。1/ 3は少しゆるく、1/400はタッチストリンジェントです。
ジェレミーマイルズ

10
ジェレミー:5%と1%の伝統は、少なくとも部分的に統計的リスク(「少しゆるい」または「厳しいタッチ」)の概念に基づいており、元々はそうではありません。便利な経験則から派生します。
whuber

1
@whuberを使用すると約が得られ、それ以上のラウンドはできません!1 / πZ=11/π
ジェームズ

6

正しい番号は.04284731のみです

...これは、.05の選択が本質的に任意であることを意味するフリッパート応答です。私は通常、p値が大きいか小さいかではなく、単にp値を報告します。

「重要性」は継続的な変数であり、私の意見では、それを離散化することはしばしば、善よりも害をもたらす。つまり、p = .13の場合、p = .21の場合よりも自信があり、p = .003の場合よりも信頼性が低くなります。


さて、テーブル1の時間で離散化する多かれ少なかれ余儀なくされた...テーブルが授業で使用されているので、これは続けて...
はKjetil BはHalvorsenの

@kjetilbhalvorsenは、テーブルメーカーが重要な値として.04284731を選択しなかったことで明らかに間違いを犯しました。
generic_user

2

これは仮説テストの分野であり、常に私を魅了してきました。具体的には、ある日、誰かがテスト手順を二分した任意の番号を決めたので、それ以来人々はめったに質問しません。

インストラクターの変数のStaiger and Stockテスト(弱いインストルメントの問題を回避するために、Fスタットは最初の段階の回帰で10を超える必要があります)に過度の信頼を置かないように講師に言わせたことを覚えています完全に任意の選択。「でも、それは通常の仮説検定でやっていることではないのですか?????」


5
これは、@ EconStatsの回答ですか?コメントのようです。CVはディスカッションフォーラムとして意図されていないことに注意してください。あなたは作る気になりの答えを私はこの記事より顕著/ wの?
GUNG

1
ごめんなさい 私のポイントは、他のユーザーから提供されたいくつかの証拠にもかかわらず、最も可能性の高い答えはまだ10進数ベースのナンバリングシステムを持っていることだと思い、それが今日でも仮説検定のために任意の数字を出すために使用されていることだと思います例えば、私が言及したStaigerとStock F-test。
EconStats

1
この質問の元のポスターとして、これは間違いなく答えとしての資格があると思います。ありがとう!
コンタンゴ

0

なぜ1と5ですか?彼らが正しいと感じるからです。

特定の数の感情的価値と認知顕著性に関する研究があるはずですが、研究に頼らなくても1と5の選択を理解できます。

今日の統計を作成した人々は、10進数の世界で生まれ育ちました。もちろん、10進数以外のカウントシステムがあり、指骨を使用して12までカウントすることは可能であり、行われていますが、指を使用するのと同じ方法では明らかではありません(したがって、数字のように「数字」と呼ばれます) )。そして、あなた(そしてフィッシャー)は10進法ではないカウントシステムについて知っているかもしれませんが、10進法は過去100年間であなた(そしてフィッシャーの世界)の主要なカウントシステムです。

しかし、なぜ5番と1番が特別なのですか?両方とも基本的な10の最も自然に顕著な区分であるため、1本の指、1つの手(または:半分)。

分数を概念化して10から1から5になるまで進める必要さえありません。指がそこにあるのと同じように、1つはそこにあります。そして、何かを半分にすることは、他の割合に分割するよりもはるかに簡単な操作です。何かを2つの部分にカットすることは、考える必要はありませんが、3つまたは4つに分割することはすでにかなり複雑です。

ほとんどの通貨システムには、1、2、5、10、20、50、100、200、500、1000などの値を持つコインと紙幣があります。一部の通貨システムには、2、20、および200がありませんが、ほとんどの通貨システムには、同時に、ほとんどの通貨システムに、3、4、6、7、8、または9で始まる硬貨または紙幣がありません。興味深いですね。しかし、なぜそうなのでしょうか?

次のより大きなオーダーに到達するには、常に1のうち10個または5のうち2個(または2のうち5個)が常に必要だからです。お金で計算するのは非常に簡単です:10倍または2倍。たった2種類の操作。あなたが持っているすべてのコインは、次のオーダーのコインの半分または10分の1です。これらの数値は簡単に乗算して加算できます。

そのため、1と5は、幼い頃からフィッシャーに深く染み込んでおり、他の誰もが最も簡単で、最も単純で、最も基本的な10の区分として重要度レベルを選択しました。数字はただそこにあります。

個々のデータセットごとに適切な有意水準を計算する客観的な方法がない場合、1つと5つは正しいと感じます。


「研究に頼ることなく」答えはいいと思うが、これは意見の領域にしっかりとそれを置く。これを裏付ける情報源があれば、それは多くの信頼性を貸し、答えをより信頼できるものにするでしょう。
モモ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.