p値が小さいほど説得力がありますか?


31

値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。p


私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。p

Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。P

0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppp

また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppP

私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?p

私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。p

しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?p

一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。p

関連する質問:


また、「有意な」p値は理論について何も語らないことを忘れないでください。これは、最も熱心な擁護者によっても認められています:統計的重要性の精度:理論的根拠、妥当性、および有用性。シウ・L・チョウ 行動科学と脳科学(1998)21、169–239データは証拠になったときに解釈されます。解釈が前提とする前提を列挙し、可能であればチェックする必要があります。測定対象は何ですか?
リビッド

2
+1。ただし、質問に焦点を合わせ、サイドの質問を削除することをお勧めします。信頼区間がp値よりも優れていると主張する人がいる理由に興味がある場合は、別の質問をしてください(ただし、これまでに質問していないことを確認してください)。
アメーバは、モニカを復活させる

3
それとは別に、あなたの質問はどのように低いp値がnullに対する証拠ではないのですか?そのスレッドを見たことがありますか?おそらく、投稿の最後にあるリストに追加できます。同様の質問も参照してくださいp値を互いに比較することはどのような意味がありますか?、しかし、私はそのスレッドを推奨することを嫌います。なぜなら、受け入れられた答えは私見不正確/誤解を招くからです(コメントの議論を参照)。
アメーバは、モニカーを復活させる


2
リンクをありがとう、@ Glen_b; 私はGelman&Sternの論文をよく知っており、しばしば自分でそれを参照しますが、この2013年の論文やその議論は今まで見たことがありません。ただし、Gelman&Sternを彼/彼女の質問の文脈で解釈することについてOPに警告したいと思います。G&Sは、効果をおよび10 ± 10として推定する2つの研究の良い例を提供します。あるケースではp < 0.01、別のケースではp > 0.05ですが、推定値のは重要ではありません。これは心に留めておくことが重要ですが、もし今、OPに続いて、最初の研究がより説得力があるかどうか尋ねます、私は確かにイエスと言います。25±1010±10p<0.01p>0.05
アメーバは、モニカーを復活

回答:


18

小さい値は「説得力がありますか?」はい、もちろんそうです。p

Fisherフレームワークでは、値は帰無仮説に対する証拠の量の定量化です。証拠は多かれ少なかれ説得力があります。p値が小さいほど、説得力があります。固定サンプルサイズnの実験では、@ Scortchiが回答(+1)でうまく指摘しているように、p値は効果サイズに単調に関連していることに注意してください。したがって、p値が小さいほど、エフェクトサイズが大きくなります。もちろん、彼らはより説得力があります!ppnpp

Neyman-Pearsonフレームワークでは、目標はバイナリ決定を取得することです。証拠は「重要」かそうでないかのどちらかです。しきい値選択することにより、我々は以上持っていないことを保証α偽陽性。同じデータを見るとき、異なる人が異なるαを念頭に置くことができることに注意してください。おそらく私が懐疑的な分野の論文を読んだとき、著者がそれらを重要と呼んでも、例えばp = 0.03の「有意な」結果とは個人的に考えないでしょう。私の個人的なα0.001か何かに設定されるかもしれません。明らかに報告されたpが低いαααp=0.03α0.001p価値、より懐疑的な読者はそれを納得させることができるでしょう!したがって、値が低いほど説得力があります。p

現在の標準的な手法は、フィッシャーとネイマンピアソンのアプローチを組み合わせることです場合、結果は「有意」と呼ばれ、p値は(正確またはほぼ)報告され、説得力の尺度として使用されます「非常に重要」などの表現を使用して、スター付き。p > αの場合、結果は「重要ではない」と呼ばれ、それだけです。p<αpp>α

これは通常「ハイブリッドアプローチ」と呼ばれ、実際にはハイブリッドです。一部の人々は、このハイブリッドは一貫性がないと主張しています。私は反対する傾向があります。なぜ2つの有効なことを同時に行うのが無効なのでしょうか?

参考文献:


1
(+1)しかし、Michael Lewの論文のセクション4.4を参照してください:証拠量をp値よりも尤度と同一視する人もいます。これは、異なるサンプリングスペースでの実験からのp値を比較するときに違いを生じます。したがって、彼らは証拠/可能性の「インデックス付け」または「較正」について話します。
Scortchi-モニカの復職

申し訳ありませんが、より正確には、このビューでは、パラメーターが取る可能性のあるさまざまな値の相対的な「証拠」(または「サポート」)は、観測データに対して評価される尤度関数の比率です。そのため、Lewの例では、サンプリングスキームが2項式であるか負の2項式であるかに関係なく、6回のトスのうち1つが帰無仮説に対する同じ証拠です。しかし、p値は異なります。1つのサンプリングスキームでは、nullに対する証拠として多くの証拠を収集する可能性は低いと言えます。(もちろん言葉の権利「証拠」、「重要」、...のように
Scortchi -復活モニカ

...まだしっかりと確立されていません。)
Scortchi-モニカを復元

うーん、このセクションに注目してくれてありがとう。私はそれを前に読みましたが、どうやらその重要性を見逃していたようです。現時点では混乱していると言わなければなりません。Lewは、停止ルールを考慮してp値を「調整」すべきではないと書いています。しかし、彼の式5-6には調整は見られません。「未調整」のp値はどうなりますか?
アメーバは、2015

1
@Scortchi:うーん。これらのp値の1つが「調整」されており、もう1つが調整されていない理由を私は本当に理解していません。なぜその逆ではないのですか?私はここでのルーの議論にまったく納得しておらず、完全に理解すらしていません。それを考えて、尤度の原理とp値に関する2012年のLewの質問を見つけ、そこに答えを投稿しました。ポイントは、異なるp値を取得するために異なる停止規則を必要としないことです。異なるテスト統計を単純に考慮することができます。おそらくそこで議論を続けることができますので、ご意見をお寄せください。
アメーバは、モニカを復活させる

9

小さいp値が「より良い」こと、または私たちがそれらに「より自信がある」ことの意味がわかりません。しかし、帰無仮説を信じるならば、p値をデータにどれだけ驚かすべきかの尺度として考えると、十分に合理的であると思われます。p値は、選択した検定統計量の単調関数です興味のある方向の帰無仮説との不一致を測定し、母集団からのサンプリングまたは実験治療のランダムな割り当ての関連手順の下で、その特性に関してそれを調整します。「有意性」は、p値が特定の値を上回るまたは下回ることを指す専門用語になりました。したがって、有意水準を指定し、仮説を受け入れたり拒否したりすることに興味のない人でさえ、「非常に有意」という言い回しを避ける傾向があります。これは単に慣習に従うだけです。

p値のサンプルサイズと効果サイズへの依存に関しては、たとえば、1000回のトスからの474頭は、コインが公平だと思う人にとっては10分の2頭よりも驚くべきではないように見えるため、おそらく混乱が生じます。サンプルの割合は、前者の場合の50%からわずかに逸脱しているだけですが、p値はほぼ同じです。しかし、真または偽は学位を認めません。p値は、求められていることを実行します。多くの場合、パラメーターの信頼区間は、実際に効果がどの程度正確に測定されたか、および推定される大きさの実用的または理論的な重要性を評価するために必要なものです。


1
p=0.04p=0.000004

1

コメントと提案を読んでくれてありがとう。私はこの問題について熟考する時間があり、混乱の主な原因を特定できたと思います。

  • 最初は、p値を驚きの尺度と見なすことと、それが絶対的な尺度ではないことを述べることとの間に二分法があると考えました。今、私はこれらの声明が必ずしも互いに矛盾していないことを理解しています。前者は、同じ実験の他の仮説の結果と比較して、観測された効果の極端さ(不似か?)に多少なりとも自信を持つことができます。後者は、1つの実験で説得力のあるp値と見なされるものは、別の実験ではまったく印象的ではない、たとえばサンプルサイズが異なる場合にのみ示すことができます。

  • 一部の科学分野は強いp値の異なるベースラインを利用しているという事実は、一般的なサンプルサイズ(天文学、臨床、心理実験)の違いを反映している可能性があります。値。しかし、後者は2つの不正確な混同です。

  • 重要性は、実験の前に選択されたアルファに基づくyes / noの質問です。したがって、p値は、選択した有意水準よりも小さいか大きいため、他の値よりも有意ではありません。一方、小さいp値は大きい値よりも説得力があります(最初のポイントで述べたように、同様のサンプルサイズ/同一の実験の場合)。

  • 信頼区間は本質的に効果の大きさを伝えるため、上記の問題を防ぐのに最適です。


0

p値は、nullがtrueの場合の確率の尺度にすぎないため、驚きの尺度にはなりません。nullがtrueの場合、pの可能な各値は同様に可能性があります。nullを拒否することを決定する前に、p値に驚くことはできません。効果があると判断すると、p値の意味は消えます。ヌルの拒否を正当化するための比較的弱い帰納的連鎖におけるリンクとしてそれを報告するだけです。しかし、拒否された場合、実際には意味がなくなります。


「nullがtrueの場合、すべてのp値が等しく発生する可能性があります」という事実に対して+1ですが、これは連続したランダム変数にのみ当てはまると思いますか?

私が言ったことに注意してください、pのすべての「可能な」値は等しくありそうです。したがって、これは離散変数または連続変数に当てはまります。控えめな変数では、可能な値の数は少なくなります。
ジョン

H0

主な回答は、これが問題ではないことを示していると思います。分布が不均一に見える理由は、可能なp値の間隔が不均等であるためです。グレンはそれを準均一とさえ呼びます。小さいNの二項データのいくつかの非常にまばらなテストでは、特定のp値の確率は等しくない可能性がありますが、与えられた範囲のp値の確率を考慮すると、より均一になります。
ジョン

1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.