結果を「非常に重要」と呼ぶのは間違っていますか?


18

値が従来のレベルのはるかに下回る場合、統計学者が結果を「非常に重要」と呼ぶことを思いとどまらせるのはなぜですか?α 0.05pα0.05

99%()の確率しか得られない結果よりも、タイプIエラー()ではない確率が99.9%の結果を信頼することは本当に間違っていますか?p = 0.01p=0.001p=0.01


16
ここで@gungの答えを読む価値があるかもしれません。まもなく:「有意対非有意」または「帰無仮説を棄却するか、帰無仮説を棄却しない」という決定では、値が研究に設定した未満であるかどうかのみが重要です(Neyman&Pearson )。一方、値は、「カットオフ」のない帰無仮説(フィッシャー)に対する証拠の連続的な尺度と見なすことができます。αpαp
COOLSerdash 14

10
p値(p値エラー確率ではありません)について深刻な誤解を持っているように見えます、修正すれば、統計学者から特定のことを聞く理由を理解するのに役立ちます。
男14

10
私は時々「非常に重要」のようなフレーズを使用することを認めます。レポートの他の場所では、複数のテストのために初期結果の多くを調整する必要があります。「非常に重要」は、「多重比較の適切な調整後も重要のまま」というより技術的な意味を獲得します。すべての読者が使用する適切な(複数の利害関係者が使用する分析ではまれです)に同意する場合でも、「有意」であるかどうかは、レポートを見る前に各読者が念頭に置いた仮説のセットに依存します。α
whuber

7
すべての統計学者が間違っていると言うわけではありません。私は自分の言葉を(確かにまれに)使用します-たとえば、このデータでは、使用しているものよりも有意に低い有意水準で動作している人々によってnullが拒否されることを示しますが、それ以上の意味を付けないことが重要ですそれよりも。そのようなフレーズの意味を明確に間違っているのではなく解釈するとき、注意を払わなければならない-時にはかなり多くのこと-を言わなければならないだけです。ここでのポイントのいくつかは関連があります。
Glen_b -Reinstateモニカ

7
(ctd)...それに比べて、大きな懸念は、関心のある質問に答えないだけの仮説検定を使用している人たちだと思います(これはよくあることだと思います)。非常に小さなp値を表現する方法の軽微な不正確さについて過度に独断的であるよりも、その明白で重要な問題に焦点を当てる方が良いでしょう。
Glen_b -Reinstateモニカ

回答:


17

結果が「非常に重要」であると言っても、それほど間違っていないと思います(そうだとしても、少しずさんです)。

これは、はるかに小さい有意水準設定した場合でも、結果を有意と判断したことを意味します。または、同等に、読者の一部がはるかに小さいを念頭に置いている場合、彼らはあなたの結果を重要であると判断することができます。ααα

有意水準は見る人の目にあるのに注意してください。一方、値は(いくつかの注意事項を伴って)データのプロパティです。Pαp

観察ちょうど観察と同じではありません両方があなたのフィールド(の標準規則によって「重要」と呼ばれるかもしれないにもかかわらず、)。小さな値は、nullに対する強力な証拠を意味します(フィッシャーの仮説検定のフレームワークが好きな人向け)。つまり、効果サイズの周りの信頼区間は、マージンが大きいヌル値を除外します(CIを値よりも好む人向け)。これは、ヌルの事後確率が小さくなることを意味します(事前確率のあるベイジアンの場合)。これはすべて同等であり、単に結果がより説得力があることを意味します。参照してくださいより説得力の小さいp値はありますか?、P = 0.04 α = 0.05 のp Pp=1010p=0.04α=0.05pp より多くの議論のために。

「非常に重要」という用語は正確ではなく、そうである必要はありません。これは主観的な専門家の判断であり、驚くほど大きな効果サイズを観察し、それを「巨大」(または単に「非常に大きい」)と呼びます。科学的文章であっても、データの定性的で主観的な説明を使用しても問題はありません。もちろん、客観的な定量分析も提示されます。


上記の優れたコメントもご覧ください。@ whuber、@ Glen_b、@ COOLSerdashに+1を追加してください。


2
同意した。 -valueは、定量的な指標です。したがって、このような話は、一部の文脈の外では不正確ですが、事実上無効ではありません。「ビルは背が高い」、「フレッドは本当に背が高い」と言うのは英語の無効な使用です。数字やそのコンテキストなども確認する必要があります。これは、または希望どおりに正確に行うことで鋭い決定をしたい、または行う必要のある人を止めるものではありませんが、好みは決まりませんこの。P < 0.05PP<0.05
ニックコックス

それはまったくずさんではありません。正式な定義があるとよく文書化されています。
フクロウ

3

これはよくある質問です。

同様の質問は、「p <= 0.05が有意とみなされる理由」です。(http://www.jerrydallal.com/LHSP/p05.htm

@ Michael-Mayerは答えの一部を示しました。重要性は答えの一部にすぎません。十分なデータがあれば、通常、いくつかのパラメーターは「重要」として表示されます(Bonferroni補正を調べます)。多重検査は、有意性を求める大規模な研究が一般的であり、p値<10 -8がしばしば必要とされる遺伝学における特定の問題です(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/)。

また、多くの分析の1つの問題は、それらが日和見的であり、事前に計画されていないことです(つまり、「データを十分に拷問すると、自然は常に自白します。」-ロナルドコーズ)。

一般的に、分析が事前に計画されている場合(統計的検出力の分析を繰り返して修正する場合)、重要と見なすことができます。多くの場合、複数の個人またはグループによる繰り返しテストが、何かが機能する(または機能しない)ことを確認するための最良の方法です。そして、結果の繰り返しは、ほとんどの場合、重要性の正しいテストです。


2

テストは、白黒の決定のためのツールです。つまり、「真の治療効果はありますか?」のようなyes / noの質問に答えようとします。多くの場合、特にデータセットが大きい場合、そのような質問はリソースのかなりの無駄です。「真の治療効果はどれくらい大きいか」などの定量的質問への回答を得ることができる場合、なぜ二項質問をするのですか?それは暗黙的にyes / noの質問にも答えますか?そのため、情報のないyes / noの質問に高い確実性で回答する代わりに、多くの情報を含む信頼区間の使用をお勧めします。


2
+1これがOPの質問にどのように回答するかについては、より明示的かもしれません(それほど明白ではありません)

@マシュー:私は完全に同意します。
マイケルM 14

マイケルに感謝します。しかし、信頼区間(「連続的なスケール」の答えを与える)は効果の大きさを指すと思いますよね?それでも、継続的回答を補完するためにバイナリ回答も必要ではないか、つまり、この効果(サイズはCIによって記述される)が合意されたαレベルを満たすかどうか。または、p値自体のCIを指定することもできますか?
z8080 14

(A)「効果サイズ」は通常、治療効果の標準化されたバージョンを指しているため、効果自体よりも解釈が容易ではありません。(B)シミュレーションの不確実性を表すために、シミュレートされたp値にp値のCIが追加されることがあります。(C)レベルが0.05の場合、ほぼすべてのテスト状況で、対応する95%ciを調べることにより、テストからの黒/白の決定を導き出すことができます。
マイケルM

(続き)あなたの質問は次の質問に何らかの関係があります:99.9999%ciでさえヌルと互換性がない、または真の効果の95%ciの下限でさえ非常に有望であると述べるほうが便利ですか?
マイケルM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.