値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。
私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。
Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。
0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。
また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。
私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?
私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。
しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?
一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。
関連する質問: