なぜ低いp値はヌルに対する証拠ではないのですか?ヨハンソン2011からの議論


31

Johansson(2011)は、「Hail the不可能:p値、証拠、および可能性」(ここにもジャーナルへのリンクがあります)で、値が低いほど、nullに対する強力な証拠と見なされることが多いと述べています。Johanssonは、統計テ​​ストが値出力した場合よりも統計テストが値出力した場合、nullに対する証拠が強いと考えることを意味します。Johanssonは、値をnullに対する証拠として使用できない4つの理由をリストしています。pp0.01p0.45p

  1. pは帰無仮説の下で均一に分布しているため、帰無の証拠を示すことはできません。
  2. pは帰無仮説のみに条件付けられ、したがって、証拠は別の仮説に関連する仮説の証拠または反対の証拠であるという意味で常に相対的であるため、証拠を定量化するのには適していません。
  3. pは、エビデンスの強度ではなく、エビデンスを取得する確率(nullの場合)を示します。
  4. pは、観察されていないデータと主観的な意図に依存するため、証拠の解釈を考慮すると、観察されたデータの証拠強度は、発生しなかったものと主観的な意図に依存することを意味します。

残念ながら、ヨハンソンの記事から直感的な理解を得ることができません。私にとっての-値 nullがより、真である少ないチャンスがあることを示しの-値。なぜ低いp0.01p0.45p値はnullに対する強力な証拠ではないのですか?


こんにちは、@ luciano!このスレッドで回答を受け入れていないようです。どんな答えをお探しですか?あなたの質問は主にヨハンソンの議論について具体的にですか、それとも一般的に低いp値についてですか?
アメーバは、Reinstate Monica

これは、Fisher対Neyman-Pearsonの頻度の高いフレームワークに関するすべてです。@gungによるこの回答の詳細を参照してください。
Firebug

回答:


21

彼の議論に対する私の個人的な評価:

  1. ここで彼はをNullの証拠として使用することについて話していますが、彼の論文はpをNullに対する証拠として使用することはできないというものです。したがって、この議論はほとんど無関係だと思います。pp
  2. これは誤解だと思います。フィッシャーの検定は、ポッパーの批判的合理主義の考え方に強く従い、理論を支持することはできず、それを批判するだけであると述べています。したがって、その意味では、単一の仮説(Null)のみがあり、データがそれに従っているかどうかを単純にチェックします。p
  3. ここに同意しません。これは検定統計量に依存しますが、は通常、Nullに反するエフェクトサイズの変換です。したがって、効果が高いほど、p値は低くなります。他のすべての条件は同じです。もちろん、異なるデータセットまたは仮説では、これはもはや有効ではありません。 p
  4. 私はこの声明を完全に理解しているとは確信していませんが、私がこれを集めることができることから、人々が誤ってそれを使用するときの問題は少なくなります。pは長期的な周波数解釈を行うことを目的としており、それはバグではなく機能です。しかし、仮説の証拠として単一のp値をとる人々、またはp < .05のみを公開する人々をpのせいにすることはできません。 ppppp<.05

証拠の尺度として尤度比を使用するという彼の提案は、私の意見では良いものです(ただし、ここではベイズ因子の考え方がより一般的です)が、彼がそれをもたらす文脈では少し独特です:最初に彼は去ります尤度比を計算するための対立仮説がないフィッシャー試験の根拠。しかし、nullに対する証拠としてのは漁師です。したがって、彼はフィッシャーとネイマン・ピアソンを混乱させます。第二に、我々が使用するほとんどの検定統計量は(関数の)尤度比であり、その場合、pは尤度比の変換です。以下のようコスマ・シャリッチはそれを置きます:pp

与えられたサイズすべてのテストの中で、最小のミス確率または最高のパワーを持つテストは、「q x / p x > t s であれば「信号」と言い 、そうでなければ「ノイズ」と言います。 、およびしきい値tsに反比例して変化します。量q x / p x は尤度比です。Neyman-Pearsonの補題では、電力を最大化するために、ノイズよりも十分に可能性が高い場合は「信号」と言う必要があります。sq(x)/p(x)>t(s)tsq(x)/p(x)

ここで、は「信号」状態の密度、p x は「ノイズ」状態の密度です。「十分に可能性が高い」の尺度は、ここでP q X / p x > t o b sH 0これはpです。正しいネイマン-ピアソンテスト中ことに留意されたいT O B S固定により置換されているT S ようにPq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α


6
ポイント3のみに対して+1。Coxは、p値を尤度比(または他の検定統計量)のキャリブレーションとして記述し、しばしば忘れられがちな視点です。
Scortchi-モニカの復職

(+1)いい答えです、@ Momo。「でも彼らは!」のようなものを追加することで改善できるのではないかと思っています。応答のヘッダーとして大きなフォントで、これはOPのタイトルの質問「なぜp値が低いほどnullに対する証拠ではないのか」に対するあなたの答えのようだからです。指定されたすべての引数をデバンクしますが、タイトルの質問への回答を明示的に提供しません。
アメーバは、モニカを復活させる14

1
私はそれをするのを少しためらうでしょう、それはすべて非常に微妙であり、仮定やコンテキストなどに非常に依存しています。漁師の観点ではそうではありません。また、私は(すべての)議論を否定したとは言いません、私は異なる視点を提供し、議論のいくつかの論理的な欠陥を指摘するだけだと思います。著者は彼の主張をよく主張し、それ自体で同様に問題があると見なされる可能性のある適切なアプローチの解決策を提供しようとします。
モモ14

9

ヨハンソンのような議論が再利用される理由は、P値がnullに対する証拠の指標であるが証拠の尺度ではないという事実に関連しているように見えることが多い。エビデンスは、単一の数値で測定できるよりも多くの次元を持っているため、P値とエビデンスとの関係には常に、人々が困難と感じる可能性のある側面が常にあります。

P値と尤度関数の関係を示す論文でJohanssonが使用した多くの議論をレビューしました。したがって、証拠:http : //arxiv.org/abs/1311.0081 残念ながら、その論文は3回拒否されました (間違っているのではなく、ヨハンソンのような意見を持っている審判には嫌なようです。)


+1 @Michael Lew、タイトルの変更はどうですか?P(ee)に、またはP(ee)にしない...は、ジレンマのようには聞こえません。私たちは皆、その状況で何をすべきかを知っています。= D冗談はさておき、論文が却下される理由は何ですか?
海での老人。

4

@Momoのいい答えに追加:

1


2
エビデンスへの応答が変更されたとしても、エビデンス自体はテストの多様性の影響を受けないことに注意する価値があります。データ内の証拠はデータ内の証拠であり、コンピューターで実行できる計算の影響を受けません。多数のテストに対するp値の典型的な「修正」は、p値と実験的証拠との関係を修正するのではなく、偽陽性エラー率を維持することに関係しています。
マイケルルー14

1

ヨハンソンは2つの異なる実験のp値について話しているのでしょうか?その場合、p値の比較は、リンゴとラムチョップの比較に似ている場合があります。実験「A」に膨大な数のサンプルが含まれる場合、わずかな些細な違いでも統計的に有意である可能性があります。実験「B」が少数のサンプルのみを含む場合、重要な違いは統計的に有意ではない可能性があります。さらに悪いことに(オレンジではなくラムチョップと言ったので)、スケールはまったく比較できない場合があります(一方はpsi、もう一方はkwh)。


3
私の印象では、ヨハンソンは異なる実験のp値の比較について話しているのではないということです。そのことと@Glen_bのコメントを踏まえて、あなたの投稿を明確にしてください、エミル?関連するポイントを上げることは問題ありません(「コンテキストAでJは間違っていると思いますが、コンテキストBでメリットがあるでしょう」)、それがあなたがしていることであることを明確にする必要があります。質問したりコメントしたりする場合、この投稿を削除してコメントにしてください。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.