帰無仮説の受け入れ


15

これは、統計学と他の科学の共通部分に関する議論の質問です。私はしばしば同じ問題に直面します。私の分野の研究者は、p値が有意水準以上である場合、効果がないと言う傾向があります。最初は、これは仮説のテストがどのように機能するかではないとしばしば答えました。この問題が発生する頻度を考えると、この問題について経験豊富な統計学者と議論したいと思います。

「最高の出版グループ」Nature Communications Biologyの科学ジャーナルの最近の論文を考えてみましょう(複数の例がありますが、1つに焦点を当てましょう)

研究者は、統計的に有意ではない結果を次のように解釈します。

したがって、慢性的な中程度のカロリー制限は、霊長類の寿命を延ばし、健康を向上させることができますが、認知能力に影響を与えることなく脳灰白質の完全性に影響を与えます

証明:

しかし、Barnes迷路課題のパフォーマンスは、対照動物とカロリー制限動物の間で差はありませんでした(LME:F = 0.05、p = 0.82、図2a)。同様に、自発的な交替課題では、対照動物とカロリー制限動物の違いは明らかになりませんでした(LME:F = 1.63、p = 0.22、図2b)。

著者はまた、効果がないことの説明を提案しているが、重要な点は説明ではなく、主張そのものである。提供されたプロットは、私にとって「目で見て」大きく異なって見えます(図2)。

さらに、著者は事前知識を無視します。

認知能力に対するカロリー制限の有害な影響が、ラットおよびヒトの脳および感情機能について報告されています

巨大なサンプルサイズについては同じ主張を理解できますが(効果なし=実質的に有意な効果はありません)、特定の状況では複雑なテストが使用され、パワー計算の実行方法は明らかではありません。

質問:

  1. それらの結論を有効にする詳細を見落としましたか?

  2. 科学における否定的な結果を報告する必要性を考慮し、それが「結果の欠如」ではないことを証明する方法()ではなく、「否定的な結果(例えば、グループ間に違いがない)」で統計?サンプルサイズが大きい場合、nullからのわずかな偏差でも拒否されることがわかりますが、理想的なデータがあり、nullが実際に正しいことを証明する必要があると仮定しましょう。p>α

  3. 統計学者は常に、「この力を持っているため、大きな規模の影響を検出できなかった」などの数学的に正しい結論を主張すべきでしょうか?他の分野の研究者は、このような否定的な結果の定式化を強く嫌います。

この問題についてのご意見をお聞かせいただければ幸いです。このWebサイトで関連する質問を読んで理解しました。質問2)-3)には統計の観点から明確な答えがありますが、学際的な対話の場合にこの質問にどのように答えなければならないかを理解したいと思います。

UPD:否定的な結果の良い例は、医療試験の第一段階である安全性だと思います。科学者が薬が安全であると判断できるとき 彼らは2つのグループを比較し、このデータの統計を行っていると思います。この薬が安全であると言う方法はありますか?コクランは正確な「副作用は見つかりませんでした」と言っていますが、医師はこの薬は安全だと言います。記述の正確さと単純さのバランスが満たされ、「健康には何の影響もない」と言えますか?


2
統計的に有意ではない結果を「ネガティブ」スタディと呼びます。これは言語の弱体化です。統計的に有意ではない、たとえばように、それをそのまま呼び出すように修正しました。私が間違っている場合は、その方法を教えてください。それ以外の場合、それはあなたとあなたの共同研究者が研究を説明するのに役立つ言語です。P > α唯一の手段というのp > α。もしN = 500 000いくつかの点で発見非常に「正」であることができます。おそらくこれは、化学物質曝露と人間の健康との関係を検査した最初の大規模な疫学研究であり、実際に安全であることがわかりました。p>αp>αp>αn=500,000
AdamO

4
サイドノート:統計を適切に使用する方法のガイドラインとして、Natureを使用することはお勧めしません
クリフAB

1
@AdamO 2つの論文がほぼ同時に公開された例があります。ある論文では著者は強い否定的な結果を主張し(主な結論)、2番目のより強力な研究では、彼らは発見し、効果を発揮しました。しかし、最初の著者が「効果サイズ1で80%の力を持ち、有意な効果を見つけることができなかった」と書いた場合、否定的な結果のジャーナルでさえ公開されません。
ドイツ語Demidov

2
しかし、非統計学者は「どのようにして否定的な結果を証明しますか?」-そして、私は答える方法がわかりません。同等性試験でよく使用される仮説はどうですか?これには、「等価マージン」として追加の用語が含まれ、平均差を考慮することができます。
Penguin_Knight

2
Nature Publishing Groupが悪用しているのはよくある間違いですが、ジャーナル間の名声の差は非常に大きいです。そうは言っても、当然、Nature自体の論文にも、ずさんな統計があります。
アメーバは、モニカを復活させる

回答:


7

「帰無仮説を受け入れる」という精神で、統計的に有意ではない結果を解釈することが適切な場合があると思います。実際、統計的に有意な研究がこのような方法で解釈されるのを見てきました。この研究はあまりにも正確であり、結果は非ヌルではあるが臨床的には重要ではない狭い範囲と一致していました。ここだ、やや猛烈な批判チョコレート/赤ワインの消費量と糖尿病への「健康的」効果との関係についての研究(あるいはさらにそのプレス)のは。高/低摂取によるインスリン抵抗性分布の確率曲線はヒステリックです。

調査結果を「H_0の確認」と解釈できるかどうかは、多くの要因に依存します:調査の有効性、検出力、推定値の不確実性、および以前の証拠。p値の代わりに信頼区間(CI)を報告することは、おそらく統計学者として行うことができる最も有用な貢献です。私は研究者や仲間の統計学者に、統計は決定を下すのではなく、人々がすることを思い出させます。p値を省略すると、実際に調査結果のより思慮深い議論が促進されます。

CIの幅は、ヌルを含む場合と含まない場合がある効果の範囲を表し、救命の可能性などの非常に臨床的に重要な値を含む場合と含まない場合があります。ただし、狭いCIは1つのタイプの効果を確認します。真の意味で「有意」である後者のタイプ、またはヌルまたはヌルに非常に近い何かである前者のいずれか。

おそらく必要なのは、「ヌル結果」(およびヌル効果)が何であるかについてのより広い感覚です。研究協力で失望するのは、調査者が対象とする効果の範囲を先験的に述べることができない場合です:介入が血圧を下げることを意図している場合、何mmHgですか?薬物が癌を治療することを意図している場合、患者は何ヶ月生存しますか?研究に情熱を持ち、自分の分野と科学に「プラグイン」する人は、以前の研究と何が行われたかについて最も驚くべき事実をガラガラと鳴らすことができます。

あなたの例では、0.82のp値がnullに非常に近い可能性が高いことに気づかずにはいられません。それから、私が知ることができるのは、CIがヌル値に集中していることだけです。私が知らないことは、それが臨床的に重要な効果を包含するかどうかです。CIが非常に狭い場合、それらの解釈は正しいと思いますが、データはそれをサポートしていません。それは小さな編集です。対照的に、0.22の2番目のp値は、その有意しきい値(それが何であれ)に比較的近いです。著者は、「H_0を拒否しない」タイプの解釈と一致する「違いの証拠を与えない」とそれに応じて解釈します。記事の関連性に関しては、私はほとんど言うことができません。調査結果のより顕著な議論を見つけて文献を閲覧することを望みます!分析に関しては、


1
AdamO、ヌルに最も近いF統計量は、指定された分子と分母の自由度のF分布の平均に等しくありませんか?どちらかといえば、0に近いF統計量は、同等のオムニバスエビデンスを意味すると思います。実際には、Wellekは、2010年にはまさにこの動機等価性と非劣性のテスト統計的仮説、セクション7.2 Fの等価性のための検定K正規分布、ページ221から225。Fk
アレクシス

@Alexis F-testプロパティを指摘してくれてありがとう。自由度がわからなければ、テストについて知的にコメントするのは難しいです。おそらく、値のみを指すように回答を修正する必要があります。いずれにせよ、私の答えの主なポイントは、我々は二つの仮説を保持することができないということであるμ = μ 0μ μ 0に等しい陰謀と:テストは意味がありませんので、これらのいずれかが、常に真です。説明的な方法を使用する必要がありますが、信頼区間を使用して厳密にすることができます。pμ=μ0μμ0
AdamO

もちろん!(それが明らかでない場合は+1)しかし、真剣に、同等性テストに精通する必要があります:臨床疫学と生物統計学(この分野の名誉ある遺産!):)
アレクシス

1
@GermanDemidov私はこれらの問題に強い線を引きます。複雑な分析は、その効果を解釈できない場合は考慮すべきではないと思います。彼らに解釈があります。Hosmerによる第2版のサバイバル分析、レメショー、5月には、Coxモデル出力の解釈に特化した章全体(4)があります。Shapiroのようなテストの不備は、プロットを使用して対処するのが最適です(これにより、テスト自体が妨げられることがよくあります)。リサンプリング統計は、さまざまなモデリング条件下でCIを計算するための強力な手段を提供しますが、正しい理論を使用するには健全な理論が必要です。
AdamO

3
厳密な推論フレームワークでは、p値は乱数であるため、「0.82はnullに近い」というものはありません。その特定のレベルは無関係です。p値の絶対値は大きくも小さくもできません。そのレベルは、事前に設定されたしきい値、重要度に関連してのみ重要です。しきい値と比較し、比較の結果に基づいて、それを拒否するか、H 0を拒否しません。αH0
アクサカル

12

あなたの質問のタイトルにいえば:私たちは決してテストしているため、帰無仮説を受け入れない唯一の不利な証拠を提供してH 0(つまり、結論は対立仮説に関して常にあり、どちらかあなたはのための証拠を発見したH Aまたはあなたの証拠を見つけることができませんでした用H A)。H0H0HAHA

しかし、我々はできるがあることを認識し、異なる種類帰無仮説のは:

  • あなたはおそらくについて学んできた、片側のヌル仮説フォームのH 0θ θ 0H0:θθ0H0:θθ0

  • あなたはおそらくについて学んできた両面ヌル仮説フォームの(別名両側検定帰無仮説)同義語として、またはH 0θ - θ 0 = 0 1サンプルの場合で、かつH 0θ 1 = θ 2、または同義語H 0θ 1 - θ 2 = 0H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=02サンプルの場合。帰無仮説のこの特定の形式があなたの質問に関するものだと思います。ReagleとVinodに続いて、私はこの形式の帰無仮説を実証主義的帰無仮説と呼び、これをという表記で明示します。肯定主義的帰無仮説は、差異の証拠または効果の証拠を提供する、または提供しない。実証主義帰無仮説のためのオムニバス形式を有するk個のグループ:H + 0θは、私は = θ jはすべてのためのI J { 1 2H0+kH0+:θi=θj; および  i ji,j{1,2,k};  and ij

  • あなたは今について学習することができる共同片側のヌル仮説、このフォームの帰無仮説は、 1サンプルの場合で、かつH 0| θ 1 - θ 2 | Δ 2サンプルの場合で、Δは、あなたが気にすることを最小関連の違いである先験的には(つまり、あなたはこれよりも小さい違いは問題ではないことを前もって言います)。繰り返しますが、ReagleとVinodに続いて、この形式の帰無仮説の帰無仮説を帰無仮説と呼びます。H0:|θθ0|ΔH0:|θ1θ2|ΔΔ、そして表記法これを明示的にする。ネガティビストの帰無仮説は、同等性の証拠± Δ以内)、または効果の欠如の証拠| Δ |より大きい)を提供します。Negativist帰無仮説のためのオムニバス形式持っているのk:グループH - 0| θ 私は = θ jは | Δ ; すべてのためのI J { 1 2 ... 、K }H0±Δ|Δ|kH0:|θi=θj|Δ; および  i j(Wellek、第7章)i,j{1,2,k};  and ij

非常に行うにはクールな事はある組み合わせ同等のテストとの違いのためにテストを。これは関連性テストと呼ばれ、[tost]タグの説明で詳述されているように、テストから得られた結論内に統計的検出力と効果サイズの両方を明示的に配置します。考慮してください:あなたがを拒否した場合、それはあなたが関連すると思うサイズの本当の効果があるからですか?それとも、サンプルサイズが非常に大きかったためにテストが過剰に実行されたのですか?そして、H + 0を拒否しない場合H0+H0+、それは本当の効果がないからですか、それともサンプルサイズが小さすぎて、テストが十分ではないからですか?関連性テストは、これらの問題に真正面から取り組んでいます。

同等性のテストを実行するには、いくつかの方法があります(違いのテストと組み合わせるかどうか)。

  • 2つの片側検定(TOST)は、上記の一般的な否定主義の帰無仮説を2つの特定の片側帰無仮説に変換します。
    • (1サンプル)または H - 01θ 1 - θ 2Δ(二試料)H01:θθ0ΔH01:θ1θ2Δ
    • (1サンプル)または H - 01θ 1 - θ 2- Δ(二試料)H02:θθ0ΔH01:θ1θ2Δ
  • TOSTよりもはるかに算術的に洗練される傾向がある、同等性に関する最も強力なテスト。Wellekはこれらの決定的なリファレンスです。
  • 信頼区間アプローチ、私は最初にSchuirmanによって動機付けられ、Tryonのような他の人によって洗練されたと信じています。


参照 Reagle、DPおよびVinod、HD(2003)。数値的に計算された排除領域を使用した否定主義理論の推論計算統計とデータ分析、42(3):491〜512。

Schuirmann、DA(1987)。2つの片側テスト手順と、平均バイオアベイラビリティの同等性を評価するための検出力アプローチの比較Journal of Pharmacokinetics and Biopharmaceutics、15(6):657–680。

Tryon、WWおよびLewis、C。(2008)。Tryon(2001)の低減係数を修正する統計的等価性を確立する推論信頼区間法Psychological Methods、13(3):272–277。

トライオン、WWおよびルイス、C。(2009)。推論の信頼区間を使用して、統計的差異、等価性、不確定性、および自明な差異の独立した比率を評価しますJournal of Educational and Behavioral Statistics、34(2):171–189。

Wellek、S.(2010)。同等性および非劣性の統計的仮説の検定。チャップマンアンドホール/ CRCプレス、第2版。


1
誰が私に賛成票を投じたとしても、その理由について何らかのフィードバックを求めるべきです。詳細な回答を提供し、入力に敏感であることは明らかです。
アレクシス

9

あなたは統計コースで教えられている標準的な推論実践を参照しています:

  1. H0Ha
  2. 有意水準設定しますα
  3. p値をと比較するα
  4. H0HaH0

これは問題なく、実際に使用されています。製薬などの規制された産業では、この手順が必須になる可能性があると思います。

ただし、これは統計と推論が研究と実践に適用される唯一の方法ではありません。たとえば、「LHCのATLAS検出器を使用した標準モデルヒッグスボソンの検索における新しい粒子の観測」という本論文をご覧ください。この論文は、いわゆるATLAS実験において、ヒッグス粒子の存在の証拠を最初に示したものです。また、著者のリストが実際のコンテンツと同じ長さの論文の1つでもありました。

  • H0HaH0
  • ασ
  • α
  • 95%などの通常の信頼レベルで信頼区間を提示します

「これらの結果は、質量126.0±0.4(stat)±0.4(sys)GeVの新しい粒子の発見の決定的な証拠を提供します。」「統計」という言葉は、統計的なことを指し、「sys」という言葉は体系的な不確実性を指します。

したがって、ご覧のとおり、この回答の冒頭で説明した4ステップの手順を誰もが実行するわけではありません。ここでは、統計クラスで教えられていることとは反対に、研究者はしきい値を事前に確立せずにp値を示しています。第二に、彼らは少なくとも正式には「拒否する/拒否しない」ダンスをしません。彼らは追いかけ、「ここにp値があります。だからこそ、126 GeVの質量を持つ新しい粒子を見つけたと言います」。

重要な注意点

ヒッグス論文の著者は、ヒッグス粒子をまだ宣言していません。彼らは、新しい粒子が発見され、質量などのいくつかの特性がヒッグス粒子と一致していると主張しただけです。

粒子が実際にヒッグス粒子であることが確立されるまで、追加の証拠を収集するのに数年かかりました。このブログ投稿で結果の初期の議論をご覧ください。物理学者は、ゼロスピンなどのさまざまな特性をチェックし続けました。そして、ある時点で証拠が集められたが、CERNは粒子がヒッグス粒子であると宣言した。

何でこれが大切ですか?なぜなら、科学的発見のプロセスを何らかの厳格な統計的推論手順に単純化することは不可能だからです。統計的推論は、使用されるツールの1つにすぎません。

CERNがこの粒子を探していたとき、焦点は最初にそれを見つけることにありました。それが究極の目標でした。物理学者はどこを見るべきかを考えていました。候補者を見つけたら、それがその候補であることを証明することに焦点を合わせました。最終的に、p値と有意性のある単一の実験ではなく、証拠の全体が、粒子を発見したことを皆に確信させました。ここにすべての事前知識と標準モデルを含めます。これは単なる統計的推論ではなく、科学的手法はそれよりも広範です。


うわー、あなたの答えは素晴らしいです!これは本当に良い例です。私は、最大10年で生命科学者もこの報告様式に来ることを望みます!
ドイツ語Demidov

5

電力計算に依存しない、これにアプローチする方法があります(Wellek、2010を参照)。特に、効果が事前に意味のある大きさであるというヌルを拒否するかどうかをテストすることもできます。

DaniëlLakensは、このような状況で等価性テストを提唱しています。Lakensは特に平均比較のために「TOST」(2つの片側検定)を使用しますが、同じ考えに到達する他の方法があります。

TOSTでは、複合ヌルをテストします。効果が最小の関心差よりも負であるという片側帰無仮説と、効果が最小の正の関心差よりも正であるという片側帰無仮説です。両方を拒否した場合、意味のある違いはないと主張できます。これは、効果がゼロと大きく異なる場合でも発生する可能性がありますが、いかなる場合でもnullを承認する必要はありません。

Lakens、D.(2017)。同等性テスト:tテスト、相関、メタ分析の実用的な入門書社会心理学および人格科学、8(4)、355-362。

Wellek、S.(2010)。同等性および非劣性の統計的仮説の検定。チャップマンアンドホール/ CRCプレス、第2版。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.