私の観点からは、重要性テストを実行することが実際に何を意味するのかという問題に要約されます。有意性検定は、帰無仮説を棄却するか、棄却しないかのどちらかを決定する手段として考案されました。フィッシャー自身が、その(任意の)決定を行うための悪名高い0.05ルールを導入しました。
基本的に、有意性テストのロジックは、ユーザーがデータを収集する前に帰無仮説(従来は0.05)を拒否するためのアルファレベルを指定する必要があるということです。有意性テストの完了後、p値がアルファレベルより小さい場合、ユーザーはnullを拒否します(そうでない場合は拒否しません)。
効果を非常に重要であると宣言できない理由(たとえば、0.001レベル)は、発見するよりも強力な証拠を見つけることができないためです。したがって、テスト前にアルファレベルを0.05に設定した場合、p値がどれだけ小さいかに関係なく、0.05レベルでのみ証拠を見つけることができます。同様に、0.05のこの任意の基準を選択したため、「ある程度重要」または「重要性に近づいている」効果について話すこともあまり意味がありません。有意性テストのロジックを非常に文字通り解釈すると、0.05より大きいものは有意ではありません。
「重要性に近づく」などの用語は、出版の見込みを高めるためによく使用されることに同意します。しかし、一部の科学における現在の出版文化は依然として0.05の「聖杯」に大きく依存しているため、著者がそのことを非難できるとは思わない。
これらの問題のいくつかについては、次で説明します。
Gigerenzer、G.(2004)。マインドレス統計。Journal of Socio-Economics、33(5)、587-606。
Royall、R.(1997)。統計的証拠:尤度パラダイム(Vol。71)。CRCプレス。