私は次の2つのアイデアに大いに反論します。
サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。
現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。
これは、p値に関するこのようなストローマンの議論です。統計の開発を動機づけた非常に基本的な問題は、トレンドを見ること、そして私たちが見ているものが偶然によるものなのか、体系的なトレンドの代表的なものなのかを知りたいからです。
それを念頭に置いて、統計学者として、帰無仮説が真であると通常信じないことは事実です(つまり、、ここでは2つのグループ間の測定の平均差です)。ただし、両面検定では、どの対立仮説が正しいかわかりません!両面テストでは、データを見る前にことを100%確信していると言ってもよいでしょう。しかし、かかはわかりません。我々は我々の実験を実行して、と結論のであれば、私たちは拒否してきた(Matloffは言うかもしれないと、役に立たないという結論)が、より重要なのは、我々はまた、拒否されていますHo:μd=0μ D ≠ 0 μ D > 0 μ D < 0 μ D > 0 μ D = 0 μ D < 0μdμd≠0μd>0μd<0μd>0μd=0μd<0(私が言う;有益な結論)。@amoebaが指摘したように、これは、薬物がプラスの効果を持っているかどうかをテストするなど、両面になる可能性がある片側テストにも適用されます。
これが効果の大きさを教えていないことは事実です。ただし、効果の方向性はわかります。だから、馬の前にカートを置かないでください。効果の大きさについて結論を出す前に、効果の方向が正しいことを確信したいと思います。
同様に、「p値は小さな、重要でない効果で跳ね返る」という議論は、私にはかなり欠陥があるようです。p値を結論の方向をサポートするデータの量の尺度と考える場合、もちろん、サンプルサイズが十分に大きい場合に小さな効果をピックアップする必要があります。これが有用ではないということは、私にとって非常に奇妙なことです。p値に苦しんでいるこれらの研究分野は、推定値の信頼性を評価する必要がないほど多くのデータがある同じ分野ですか?同様に、p値が「小さな効果サイズで」という問題である場合、仮説およびを単純にテストできますH1:μd>1H2:μd<−1(1が最小の重要なエフェクトサイズであると信じていると仮定します)。これはしばしば臨床試験で行われます。
これをさらに説明するために、信頼区間を調べてp値を破棄したと仮定します。信頼区間で最初に確認することは何ですか?結果をあまりにも真剣にとらえる前に、効果が厳密にポジティブ(またはネガティブ)であったかどうか。そのため、p値がなくても、非公式に仮説検定を行うことになります。
最後に、OP / Matloffのリクエスト「p値が有意に優れているという説得力のある議論を与える」に関して、質問は少し厄介だと思います。あなたの意見次第で自動的に答えるからです(「仮説をテストするよりも仮説をテストするほうが良い具体的な例を挙げてください」)。しかし、私がほとんど否定できないと思う特別なケースは、RNAseqデータのケースです。この場合、通常、2つの異なるグループ(病気、コントロール)のRNAの発現レベルを調べ、2つのグループで差次的に発現する遺伝子を見つけようとしています。この場合、エフェクトのサイズ自体はあまり意味がありません。これは、さまざまな遺伝子の発現レベルが大幅に異なるため、一部の遺伝子では、発現が2倍高くても何の意味もないため、他の厳しく規制された遺伝子では、1.2倍の高発現は致命的です。したがって、最初にグループを比較すると、実際のエフェクトサイズの大きさは実際には多少面白くありません。しかし、あなた本当に、本当に遺伝子の発現がグループ間で変化するかどうか、そして変化の方向を知りたい!さらに、p値を使用する場合よりも、信頼区間を使用して複数回の比較(1回の実行で20,000件の比較を行う場合がある)の問題に対処することははるかに困難です。