仮説がない場合のP値の豊富さ


28

私は疫学に興味があります。私は統計学者ではありませんが、分析を自分で実行しようと試みますが、しばしば困難に直面します。約2年前に最初の分析を行いました。P値は、記述表から回帰分析まで、私の分析のどこにでも含まれていました(他の研究者が行っていたことを単純に行いました)。少しずつ、私のアパートで働いている統計学者は、私が本当に仮説を持っている場合を除いて、すべての(!)p値をスキップするように説得しました。

問題は、医学研究の出版物にp値が豊富にあることです。p値を非常に多くの行に含めるのが一般的です。平均、中央値、または通常p値に沿ったもの(t検定、カイ2乗など)の記述データ。

私は最近、ジャーナルに論文を提出しましたが、「ベースライン」の説明表にp値を追加することを(丁寧に)拒否しました。論文は最終的に拒否されました。

例を示すには、次の図を参照してください。これは、尊敬される内科のジャーナルに掲載された最新の記事の説明表です。 ここに画像の説明を入力してください

統計学者は、ほとんどの場合(常にではないにしても)これらの原稿のレビューに関与しています。したがって、私のような素人は、仮説が存在しない場合、p値が見つからないことを期待しています。しかし、それらは豊富ですが、この理由は私にはとらえどころのないままです。無知だとは信じがたい。

これは統計的な問題の境界線であることを理解しています。しかし、私はこの現象の背後にある理論的根拠を探しています。


12
仮説のないp値には本質的に欠陥があります。仮説がない場合でも、p値はどういう意味ですか?
ジェームズモア

3
仮説を立てずにp値を使用している人々の例を挙げていただけますか?これは明確ではありません。
アメーバは、モニカーを復活させる

4
@amoeba ""問題は、p値がすべての医学雑誌のいたるところにあるということです。記述された平均値、中央値または比率があるすべての行にp値を含めるのが一般的です。 ""これらは、単純なフィッシャーの正確検定または差異のカイ2乗検定であり、サマリーテーブルの行に有意差があるかどうかを尋ねます。暗黙の仮説は、各行が重要であるということです。
カール

2
主な要因は、p値が与えられた主張に最終性の誤解を招く印象を与えることだと思います。これらのジャーナルの出版社は、近い将来に価値のある情報を所有していることを意味するため、これを愛すべきです。複製研究に資金を提供しない、または提案するという並行文化は、論争の的となる矛盾する結果の存在を最小限に抑えるのにも役立ちます。人々が所有する情報の大部分が「無意味な活動」(@glen_bの用語)で構成されていることに最終的に気付くと、どうなるでしょうか。有用なものが混在していても...ヒューリスティックは回避するよう指示します。
リヴィッド

1
[at] jameselmore:同じ質問をしています。意味はありませんが、毎日適用されます。[at] amoeba:読んだジャーナルの1つをランダムに選択し、最新の公開記事を見つけて、これを見つけました:onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl:正確にありがとう。@Momo:質問の定式化を改善するための努力をしました。これは重要な質問だと思います。あなたの提案に感謝します。[at] Livid:このコメントをありがとう。実際、多くの研究者は、p値のポイント全体を誤解している可能性があります。
アダムロビンソン

回答:


29

明らかに、p値とは何か、またはp値に過度に依存することが問題である理由を説明する必要はありません。これらのことを既に十分に理解しているようです。

パブリッシングでは、2つの競合するプレッシャーがあります。

最初の-そしてあなたが合理的な機会ごとにプッシュすべきもの-理にかなっていることをすることです。

第二に、最終的には、実際に公開する必要があります。ひどい慣行を改革しようとするあなたのすばらしい努力を誰も見なければ、ほとんど利益はありません。

したがって、完全に回避する代わりに:

  • あなたがまだそれを公開することで逃げることができるようなそのような無意味な活動のほんの少しとしてそれをしてください

  • 役立つと思われる場合は、この最近のNatureの方法に関する記事 [1]を含めるか、他の参考文献の1つ以上をお勧めします。少なくとも、p値の優位性に反対があることを立証するのに役立つはずです。

  • 別のジャーナルが適している場合は、他のジャーナルを検討する

これは他の分野でも同じですか?

p値の過剰使用の問題は多くの分野で発生します(仮説ある場合でも問題になる可能性があります)が、他の分野よりも一般的ではありません。いくつかの学問にはp-value-itisに問題があり、最終的に原因となる問題はやや誇張された反応 [2] につながる可能性があります。同様に)。

それにはさまざまな理由があると思いますが、p値の過度の信頼はそれ自体の勢いを獲得しているようです。「重要」と言って、人々が非常に魅力的であると思うヌルを拒否することについて何かがあります。さまざまな分野(たとえば[3] [4] [5] [6] [7] [8] [9] [10] [11]を参照)は、さまざまな程度で成功し、過度に依存するという問題と闘っています長年にわたってp値(特に = 0.05)であり、多くの異なる種類の提案を行ってきました-私が同意するすべてではありませんが、私は人々が言わなければならないさまざまなことの感覚を与えるためにさまざまな見解を含めます。α

信頼区間に焦点を当てる擁護者、効果の大きさを見る擁護者、ベイジアン法を擁護する擁護者、より小さなp値、特定の方法でp値の使用を避けることだけを擁護する者などがいます。代わりに何をすべきかについてはさまざまな見方がありますが、それらの間には、少なくとも一般的に行われている方法で、p値に依存することに関する問題に関する多くの資料があります。

さらに多くの参照については、これらの参照を順番に参照してください。これは単なるサンプルです-さらに多くの参考文献を見つけることができます。一部の著者は、p値が一般的であると考える理由を示しています。

これらの参照の一部は、エディターでポイントを議論したい場合に役立ちます。

[1]ハルシーLG、カランエベレットD.、Vowler SL&ドラモンドGB(2015)、
"気まぐれなP値は再現不可能な結果を生成し、"
ネイチャーメソッド12、179-185 DOI:10.1038 / nmeth.3288
のhttp:// WWW .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow、D. and Marks、M.(2015)、
Editorial、
Basic and Applied Social Psychology37:1–2
http://www.tandfonline.com/loi/hbas20
DOI:10.1080 / 01973533.2015.1012991

[3] Cohen、J。(1990)、
私が学んだこと(これまで)、
American Psychologist45(12)、1304–1312。

[4] Cohen、J.(1994)、
地球は丸い(p <.05)、
アメリカ心理学者49(12)、997〜1003。

[5] Valen E. Johnson(2013)、
統計的証拠の改訂された基準 PNAS、vol。110、いいえ 48、19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK(2010)、
信じるべきこと:データ分析のためのベイズ法
、認知科学の動向 14(7)、293-300

[7] Ioannidis、J.(2005)
公表されたほとんどの研究結果が間違っている理由、
PLoS Med。8月; 2(8):e124。
土井:10.1371 / journal.pmed.0020124

[8] Gelman、A.(2013)、P値と統計的実践、
疫学 Vol。24、第1号、1月69-72

[9] Gelman、A.(2013)、
「p値の問題は、それらがどのように使用されるか」
(「P値の防御」、Paul Murtaugh著、エコロジー)の非公開
http:// citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R.(2014)、
統計誤差:P値、統計的妥当性の「ゴールドスタンダード」は、多くの科学者が想定しているほど信頼性がありません
。Newsand Comment、
Nature、Vol。506(13)、150〜152

[11] Wagenmakers E、(2007)
p値のper延する問題に対する実用的な解決策、
Psychonomic Bulletin&Review 14(5)、779-804


7
+1。このNature Methodsの論文[1]をもう1週間読んだのですが、それがとても好きかどうかわかりません。彼らは基本的に、低消費電力テストではp値が非常に変動する可能性があると主張しています(youtubeの「p値のダンス」も参照)-もちろん、これは真実であり、強調する必要があります。彼らは、p値は「悪い」(タイトルはかなり厳しいように聞こえます)、そして人々は「良い」信頼区間を使用すべきだと結論付けています。しかし、もちろん、信頼区間も低消費電力では非常に可変です!その図6(左)の状況は、図2に比べて私にははるかに良い見ていません
アメーバは回復モニカ言う

2
@amoeba私はあなたに反対するとは言いません-私が反対することはたくさんあります。それにもかかわらず、OPに役立つかもしれないいくつかのポイントがあります。実際、あなたは私が意図した変更を思い出しましたが、忘れていました。
Glen_b-モニカを

3
はい、それでも潜在的な有用性に同意します-特にNature Methodsはその「権限」によって人々がおそらく納得できるほど十分に立派だからです。そこにあるすべてのものを当然のことと考えないようにOPに警告したかっただけです(数学は大丈夫です、ここで結論/解釈について話します)
アメーバは、モニカを復活させる

1
これに関連して興味深いのは、ウィルキンソンと統計的推論に関するタスクフォース、Psychology Journalsの統計的方法、アメリカ心理学者、Vol。54、第8号、594から604、1999
A. Donda

Glen_b、私は「Fickle P」ペーパーに見知らぬ人の主張について質問を投稿しました:stats.stackexchange.com/questions/250269-あなたの洞察を大いに感謝します。
アメーバは、モニカの復活を

10

p値、またはより一般的には帰無仮説有意性検定(NHST)は、徐々に値が小さくなっています。そんなにそれがジャーナルで禁止され始めています

ほとんどの人は、p値がどこで使用されていても、p値が実際に何を示しているのか、なぜp値がこれを示しているのかを理解していません。

Pデータ|H0PH0|データ

H0H0


1
P(H0 | data)は、H0に意味がある場合にのみ意味があると付け加えます。研究は、偶然を超えて結果(バイアス、ドロップアウト、ベースラインの違い)に関する他の興味深い説明を除外するように設計および報告される必要があります。また、かなりの効果サイズの完全な盲検化されたRCTでさえ、興味深いものが測定されたことを示しているだけです。あなたが実際に懸念していることを測定したかどうかを判断することは、p値の強迫観念とともにしばしば見られるもう一つの論争の多い問題です。
リヴィッド

8

これは他の分野でも同じですか?p値に執着する理由は何ですか?

グリーンウォルド等。(1996)心理学に関するこの質問に対処する試み。また、NHSTをベースラインの違いに適用することに関して、おそらく、編集者は「正しくない」ベースラインの違いは結果を説明できず、「重要な」ベースラインの違いは結果を説明できると判断するでしょう。これは、Greenwaldらによって提供された「理由1」に似ています。:

NHTが人気を維持する理由

「なぜNHTは批判に負けないのでしょうか?より良い答えがないため、行動科学者の性格の欠如にNHTが持続していることを認めようとする傾向があります。食前酒カクテルの習慣を放棄したくない酒飲みのように...」

理由I:HTは二分法の結果を提供する

「p <.05が「統計的に有意」に変換されるという慣習が広く採用されているため、NHTを使用して、帰無仮説に関する質問に対する二分法の答え(拒否または拒否)を得ることができます。パラメータの期待値というよりも予測の方向に関して述べられている理論的な質問に対する有用な答えとして...」

理由2:テスト統計の意味のある共通言語翻訳としてのp値

「t、F、rの値(関連するdf)から直接知覚できるものとは異なり、p値の驚きの尺度は、小数点の右側にある連続したゼロの数によって単純にキャプチャされます...」

理由3:帰無仮説棄却の再現性におけるp値が自信の尺度を提供する

「[U]効果サイズ(または信頼区間)と同様に、NHTから生じるp値は、非nullの結果の複製可能性の推定値に単調に関連しています。このステートメントでは、複製可能性(より正式に以下で定義)拒否-非拒否の結論を繰り返すというNHTの意味でのみであり、ポイントまたは間隔の推定値間の近接の推定の意味ではありません。

効果のサイズとp値:何を報告し、何を複製する必要がありますか?アントニー・G・グリーンワルド、リチャード・ゴンザレス、リチャード・J・ハリス、ドナルド・ガスリー。精神生理学、33(1996)。175-183。ケンブリッジ大学出版局。アメリカで印刷。Copyright O 1996 Society for Psychophysiological Research


これらの重要なコメントに感謝します。次回は必ずレビュー担当者と議論するために使用します。
アダムロビンソン

6

P値は、2つの母集団からサンプリングした結果の2つのグループ(「治療」と「コントロール」、「A」と「B」など)の違いに関する情報を提供します。差の性質は、仮説のステートメントで形式化されます。たとえば、「Aの平均はBの平均よりも大きい」などです。p値が低い場合、差はランダムな変動によるものではないことを示唆しますが、p値が高い場合、2つのサンプルの差は、ランダムな変動から生じる可能性のある差と区別できないことを示唆します。p値の「低」または「高」とは、厳密な論理または証拠の分析によって確立されるのではなく、歴史的に慣習と趣味の問題でした。

p値を使用するための前提条件は、結果の2つのグループが実際に比較可能であること、つまり、それらの違いの唯一の原因が評価する変数に関連していることです。誇張された例として、2つの期間に2つの病気に関する統計があると想像してください-A:1920年から1930年までの英国の刑務所の男性のコレラによる死亡率、およびB:1960-1970年のナイジェリアのマラリアによる感染。これらの2つのデータセットからp値を計算するのはかなりばかげています。ここで、A:治療を受けていない英国の刑務所の男性のコレラによる死亡率vs. B:再水和で治療された英国の刑務所の男性のコレラによる死亡率の場合、強固な統計的仮説の根拠があります。

ほとんどの場合、これは慎重な実験計画、慎重な調査計画、または履歴データの慎重な収集などによって達成されます。また、2つの結果の差は、サンプル統計を含む仮説ステートメントに形式化する必要があります。サンプルの分散、またはその他のサンプル統計情報。確率的優位性を使用して、2つのサンプル分布を全体として比較する仮説ステートメントを作成することもできます。これらはまれです。

p値をめぐる論争は、研究にとって「本当に重要なこと」に集中していますか?これがエフェクトサイズの出番です。基本的に、エフェクトサイズは2つのグループ間の差の大きさです。高い統計的有意性(低いp値->ランダムな変動によるものではない)がありますが、効果サイズが小さい(大きさの差が非常に小さい)可能性もあります。効果のサイズが非常に大きい場合は、p値をいくぶん高くしても問題ありません。

現在、ほとんどの分野は、効果の大きさを報告し、p値の役割を削減または最小化する方向に非常に強く動いています。また、サンプル分布に関するより詳細な統計を推奨します。ベイジアン統計を含むいくつかのアプローチでは、p値をすべて無効にします。


私の答えは簡潔で簡潔です。このトピックに関する多くの記事があり、以下を含む詳細、正当化、および詳細を確認できます。


@MerMeritologyはこれらの重要な参考文献を提供してくれてありがとう。すぐに読みます!
アダムロビンソン

6

「だから、私のような素人は、仮説が存在しない場合、p値を見つけられないと期待しています。」

暗黙のうちに、OPは、彼が提示する特定の表には、報告されたp値に付随する仮説はないと述べています。この小さな混乱を解消するために、確かに帰無仮説がありますが、それらはむしろ...間接的に言及されています(空間の経済のために、私は推測します)。

「p値」は条件付き確率で、たとえば「右尾」検定の場合、

p-valPTtSH0=1FT|H0tSH0

TFT|H0tH0TH0tSTTH0TH0H0

そのため、帰無仮説がない場合はp値を計算することさえできず、p値が報告されるのを見ると、どこかに帰無仮説が潜んでいます。

私たちが読んだ質問で提示された表で

「WHRの三位一体の違いに関するすべてのテスト...」

帰無仮説は、このフレーズでは「隠されています」:「WHR三分位数に違いはありません」、(「WΗR三分位数」は何でも)数学的な形で表され、ここでは2つの大きさの差がゼロ。


これらの分析の背景に仮説があることに同意します。ただし、研究論文のガイドライン(STROBEステートメントなど)を詳しく説明する人は、豊富なp値を考慮する必要があります。p値は、論文の主要な仮説のために予約されるべきだと思います(めったに複数ではない)しかし、それでも、私はあなたに反対するとは言えません=)
アダムロビンソン

1
@AdamRobinssonうーん...よく分からない。このような「予約された」アプローチは、結論に到達するためにp値テストが本当に持つ重要性を(さらに)高めます。私にとっては、他の多くの側面、結果、サンプル外情報、ロジックなどと組み合わせる必要があるもう1つの結果です。一方、p値が場所全体に散在している場合、それらが結論に到達するための明確な基準ではないことを理解しやすい。
アレコスパパドプロス

Alecos Iはながら、WHR(すなわち、ウエストヒップ比)三分位ではなくWRTを指すテーブルに何か異なる、読み取り三分位は、四分位数は、値がされるのと同じ意味で、3部に分布を分割値は、その4つの部分に分割及び10分の1です。
Glen_b-モニカを

@Glen_bおかげで、それは私の一部の単なるタイプミスでした。それを修正しました。
アレコスパパドプロス

2
たとえば、こちらをご覧ください。しかし、おそらくここではありません。
Glen_b-モニカを復活させる

2

私は好奇心got盛になり、OPが例として挙げた論文を読みました。腹部肥満は股関節骨折のリスクを増加させます。私は医学研究者ではなく、通常は医学論文を読みません。

p

pp

ppp

p

質問がそのような説明的な表を具体的に参照しているように聞こえます。もしそうなら、これは医学ジャーナルでの奇妙な(しかしほとんど無害?)慣習であり、伝統のために生き残っています。


pn=43000


@amoeba randoで記事を選択しました。それは、そのジャーナルの疫学に関する最新の公開記事でした。もっともっと検索していたなら、もっと多くの無意味なp値を持つ記事を提供できたはずです。お気づきのとおり、p-valueitisがありますが、あなたと、他の上下の答えから、研究コミュニティはこれに取り組んでいるようです。
アダムロビンソン

@Adam、あなたの質問(+1)とGlen_bの答え(+1)が好きですが、この「ランダムに選択された」論文が代表的なものである場合、Glen_bが作成したほとんどのポイントと彼がリンクしたほとんどの論文は、適用も参照もしませんあなたが尋ねていた医学研究の状況。それが代表的なものでなければ、もちろん私は判断できません。
アメーバは、モニカを復活させる

私はあなたの答えから何度も大いに助けてくれました。私はこの問題の私の理解に基づいて判断をしました。提供されたすべての回答は有用であり、それらが集合的に質問に回答すると信じています。
アダムロビンソン

1

統計的ピアレビューのレベルは、私の経験から考えるほど高くはありません。私が取り組んだすべての応用論文について、統計コメントはすべて、統計学者ではなく応用分野の専門家から寄せられました。「トップ」ジャーナルの場合、より詳細な調査が行われますが、重大な欠陥のある結果が見られることは珍しくありません。これは、統計の分野が難しい可能性があるためだと考えています(多くの偉大な頭脳間の意見の相違からわかるように)。

第二に、分野の読者は物事を特定の方法で見ることを期待しています。最近の経験では、モデルから確率をプロットしましたが、これは、読者が生データのバープロットに慣れる方が適切だと共同作業者が正しく推測したため、撃shotされました。要するに、多くの読者は、ベースライン特性の表と一緒にp値を見ると期待しています。

あなたの直接的な質問とは関係ありませんが、おそらく関連性があります。p値は、頻出法または尤度法を使用して、ほぼすべてのテキストで使用されます。著者はしばしば多大な貢献をしており、統計について深く考えています。実験家に虐待されているが、確かに彼らは統計学の場所を持っている。


このコメントをありがとう。あなたの声明をさらに進めることができます。公開された調査結果の信じられないほど大きな割合には、さまざまな理由で統計上の欠陥が含まれていると思います。私のスーパーバイザーはよく「審査プロセスは紳士の言葉に基づいている」と言っています。
アダムロビンソン

1

私は医療記事を頻繁に読む必要があり、振り子は中央のバランスの取れたゾーンに留まるのではなく、極端から極端へと振れているように感じます。

次のアプローチはうまくいくようです。P値が小さい場合、観測される差は偶然だけではありそうにありません。したがって、差の大きさを見て、実際的な意味があるかどうかを判断する必要があります。非常に小さなP値は、実際の関連性がない可能性がある非常に小さな差でも、大きなサンプルサイズで発生します。

ベースラインデータのテーブルにP値を含めないと、不利になる場合があります。そのため、研究で平均年齢が54歳と59歳の2つのグループがある場合、この違いが偶然だけであるかどうかを知りたいと思います。Pが小さい場合、2つのグループのこの5年の差が研究の結果に影響を与える可能性があるかと思います。Pが小さくない場合、この質問に対処する必要はありません。

問題は、P値のみに依存し、差の大きさをチェックしない場合に発生します(単純なパーセント変化など)。一部の人は、P値を完全に省略して、差のみが残り、見えるようにする必要があると感じています。バランスのとれた解決策は、これらの両方を評価することを強調することであり、P値を単に捨てるのではなく、制限された「重要な」意味を持ちます。効果の大きさは、(信頼区間と同様に)P値と密接に相関する可能性が高く、統計的ランドスケープからP値を完全に移動させることもほとんどありません。次の記事で述べたように、帰無仮説検定には多くの長所があります。その理由は、それが一般に残っているためです。

ANTHONY G. GREENWALD、RICHARD GONZALEZ、RICHARD J. HARRIS、およびDONALD GUTHRIE効果のサイズとp値:何を報告し、何を複製すべきか?精神生理学、33(1996)。175-183。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.