なぜ人々は重要性レベルを権力と交換しないのですか?


7

慣例として、有意水準がで検出力がある多くの研究があります。ただし、べき乗で研究を見つけることは非常にまれです。0.050.8α=0.20.95

私の理解では、実験が行われた後、結果が有意でない場合、有意水準はまったく問題になりません。なぜなら、この場合、私たちはnullを受け入れることが理にかなっているかどうかを検討しており、すべての重要なことです力です。同様に、結果が有意である場合、有意水準は証拠となり、検定の検出力はまったく差がありません。(「重要ではない」とは、「この実験の目的ではない」という意味です。メタスタディでは、重要度とパワーの両方が重要であるため、両方をレポートで報告してください!)

私が正しい場合、帰無仮説と代替案はある程度対称的です。帰無仮説は本質的にそれ以上の保護を必要としません。代替案を証明したい場合は、「この新薬は患者に影響を与える」と言ってから、非常に小さなと適度に高いパワーを使用します。一方、たとえば正規性テストでnullを証明する場合は、適度に小さいと非常に高いパワーを選択して、nullを秘密裏に受け入れることができるようにする必要があります。αα

適度に小さいと非常に高いパワーでの実験がそれほど珍しいのはなぜですか?α


3
の文化的慣習が強く確立されているからですか?α=0.05
ベンボルカー

2
全体で5%が見られますが、理由はありません。多くの状況では、確実に、より小さな(場合によっては、より大きな)有意水準を検討する必要があります-さらに多くの状況では、有意性検定が実際に仕事に適切なツールであるかどうかを再検討します(多くの場合、そうではありませんが、あなたのツールボックスにはハンマーがあります...)。フィッシャーは一般的に5%を本質的に最も弱い証拠と見なし、注意を払うことさえ検討しました(そして彼はそれに加えて実験を複製するためのステッカーでした)が、何らかの理由標準として見られるようになりました。
Glen_b-モニカを復活させる

2
私が言えることは、フィッシャーがそれについて書いたもののいくつかを読むことができれば、彼がプロセスの一部として複製をどの程度重要視したかがわかるでしょう。手に関する言及はありませんが、彼の論文のほとんど(および他の論文へのコメント)は公開されています。(彼の本は、すぐに表示されない場合でも、より良い情報源になる可能性があります)。その重要性の例として、このペーパーを参照してください...(4番目の段落の最初の文「フィッシャーに帰因する3つの基本的な実験計画の原則は、ランダム化、複製、およびブロッキングです。」
Glen_b -Reinstate Monica

2
その論文はフィッシャーの「実験計画法、6ed」を参照している。ただし、これは主に実験者によるレプリケーションの使用について説明しています(これはいくつかの重要な目的を果たします)。彼はまた、不確実性に直面して事実に到達しようとするとき、他の人による複製も重要であると考えました。
Glen_b-モニカを復活させる

1
複数のテストとその他のさまざまなバイアスが考慮されていないため、誤検出率はよりもはるかに大きくなる傾向があります。同時に、誤検知傾向のコスト(およびリスク)ははるかに悪化します。したがって、0.2では、実際には50%を超える値が、より詳細ではあるもののコストのかかる実験で誤っている可能性があります。特に誰かが同じ仮説を後の段階で独立して再度テストすると想定する場合、偽陰性は多くの場合、それほどコストがかかりません。α
QUITあり--Anony-Mousse

回答:


5

なぜ適度に小さい実験が α そして非常に高いパワーはとても珍しいですか?

これはすべて相対的なものですが、有意水準は α=0.05 はすでに弱く、すでに(例えば、有意水準に比べて)より高い力のために作られた犠牲を構成しています α=0.01または他のより低い有意水準)。これについての意見は異なりますが、私の見解では、これはすでに非常に弱い重要度レベルであるため、それを選択することは、すでにより高いパワーを得るためのトレードオフです。

私の理解では、実験が行われた後、結果が有意でない場合、有意水準はまったく問題になりません。なぜなら、この場合、私たちはnullを受け入れることが理にかなっているかどうかを検討しており、すべての重要なことです力です。同様に、結果が有意である場合、有意水準は証拠となり、検定の検出力はまったく差がありません。

なぜそう思うのかはわかりますが、本当ではありません。古典的な仮説検定では、これらの点で非常に複雑で微妙な相互作用があります。p値と検出力の両方が、仮説の真の状態を条件とする確率(nullのp値条件、および代替の検出力条件)に関連することを覚えておいてください。データから結果を得るとき、仮説について推論しますが、それらの真の状態はまだわかりません。したがって、テストの「その他の半分」を完全に無視できると言っても、それは実際に正当なことではありません。結果が統計的に有意であるかどうかに関係なく、その結果の解釈は、検定のすべての特性に関して総合的に行われます。

また、固定モデルと検定、および固定標本サイズの場合、べき関数は選択した有意水準の関数であることにも注意してください。選択した有意水準は、テストの検出力に直接影響する拒否領域を決定します。繰り返しになりますが、これらの間には関係があり、テストのプロパティの「半分」を無視することはできません。


私はそれに同意します α そして 1β は負の相関関係にありますが、実験を行う時点で、その設計は完了しているはずです。その時点で、 α そして 1βテストの固定パラメータです。重要ではない結果の場合、「nullがtrueの場合に結果が有意である確率」という点で、それをどのように解釈できるかを理解できません。より大きいという事実を考慮していますかα より大きいことを意味します p
nalzok

より大きい α より大きいことを意味しない p。後者はデータの関数であり、影響を受けませんα
ベン-モニカを

つまり、結果が重要でないことを条件として、 pαなので、 α 小さな可能性を排除します p。これが理由を理解できる唯一の方法ですα重要ではない結果を解釈する役割を果たす。それはあなたが考えていることですか?
nalzok

だいたい、しかしそれでも、べき関数は対立仮説が真であることを条件とする動作のみを調べます。
ベン-モニカを復活させる

4

これは、回答というよりは拡張コメントです。このブログ投稿には、興味深い引用が1つあります。短い引用です。

... [重要性]という言葉は、結果が何かを示した、または意味したことだけを意味する19世紀後半にははるかに少ない重みを帯びたと主張します。その後、20世紀には、重要性を意味するだけでなく、何かを意味するという意味合いが今日の意味に集まり始めました。...

これが正しければ、フィッシャーはメモをとるのにふさわしい(メンタルまたはラボのノートブックのような)重要な何かを意味している可能性があり、さらなる調査または複製に値します。

(心理学研究で)標準的な有意水準を0.05から0.005に下げることを提案しているこのpsyarxiv論文は、0.05がすでにかなり弱い要件であることを多くの人が(正しく...)見ていることのさらなる証拠です。



1

タイプIIエラーはタイプIエラーよりも問題が少ないと考えられるためです。タイプIのエラーは、将来の研究に大きな影響を与えます。さらに、ほとんどの場合、高出力の実験ははるかに高価です。

しかしもちろん、NHSTフレームワーク全体と、気づかない研究者によって頻繁に悪用される方法の両方に疑問を投げかけることもできます...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.