有意性試験(または有意性試験と本質的に同じことを行う他のすべて)に関する限り、ほとんどの状況での最良のアプローチは標準化された効果サイズを推定することであり、それについて95%の信頼区間があると長い間考えていました効果の大きさ。「nil」nullのp値が<.05の場合、数学的には前後にシャッフルできますが、特に新しいものはありません。0は95%CIの外側にあり、逆も同様です。私の意見では、これの利点は心理的です; つまり、存在する顕著な情報を作成しますが、p値のみが報告された場合には人々は見ることができません。たとえば、効果が乱暴に「重要」であるが、途方もなく小さいことは簡単にわかります。または「重要ではない」が、これはエラーバーが非常に大きいのに対し、推定される効果は多かれ少なかれ予想したものだからです。これらは、生の値とそのCIとペアにすることができます。
現在、多くのフィールドで生の値は本質的に意味があり、平均値や勾配などの値が既にあるので、効果サイズの尺度を計算する価値があるかどうかという疑問が生じることを認識しています。例としては、成長の阻害が見られます。20歳の白人男性が6 +/- 2インチ(つまり15 +/- 5 cm)短くなることの意味を知っているので、なぜでしょうか?両方を報告することにはまだ価値があると思う傾向があり、これらを計算する関数を書くことができるので、余分な作業はほとんどありませんが、意見が変わることを認識しています。とにかく、信頼区間を使用したポイント推定は、応答の最初の部分としてp値を置き換えると主張します。 d=−1.6±.5
一方、より大きな質問は、「有意性テストが私たちが本当に望んでいることをしているのか」ということだと思います。本当の問題は、データを分析するほとんどの人(つまり、統計学者ではなく開業医)にとって、有意性検定がデータ分析全体になる可能性があると思います。私にとって最も重要なことは、データで何が起こっているのかを考えるための原則的な方法を持つことであり、帰無仮説の有意性テストはせいぜいそのごく一部です。架空の例を挙げましょう(これは似顔絵であることは認めますが、残念ながら、やや妥当であると思われます)。
ボブは調査を行い、何か他のものに関するデータを収集します。彼は、データが正規分布し、ある値の周りに密集することを期待し、1サンプルのt検定を行って、データが事前に指定された値と「有意に異なる」かどうかを確認します。サンプルを収集した後、彼は自分のデータが正常に配布されているかどうかを確認し、そうでないことを見つけます。代わりに、中央に顕著なしこりはありませんが、特定の間隔で比較的高く、その後長い左尾で消えます。ボブは、テストが有効であることを確認するために何をすべきか心配しています。彼は最終的に何か(変換、ノンパラメトリック検定など)を実行し、検定統計量とp値を報告します。
これが厄介にならないことを願っています。誰かをanyone笑するつもりはありませんが、このようなことが時々起こると思います。このシナリオが発生した場合、データ分析が不十分であることに全員が同意できます。ただし、問題は検定統計量またはp値が間違っていることではありません。その点でデータが適切に処理されたと推測できます。問題は、Clevelandが「rote data analysis」と呼んでいるボブが関与していることだと主張します。彼は正しい点を得ることが唯一のポイントであると信じており、その目標を追求すること以外のデータについてはほとんど考えていません。彼は上記の私の提案に切り替えて、95%の信頼区間で標準化された効果サイズを報告することさえできましたが、それは私がより大きな問題として見るものを変えなかったでしょう(これは私が「本質的に同じこと「別の手段で)。この特定のケースでは、データが期待どおりに見えなかった(つまり、正常ではなかった)という事実は実際の情報であり、興味深い、そして非常に重要かもしれませんが、その情報は基本的に捨てられます。有意性テストに焦点が当てられているため、ボブはこれを認識しません。私の考えでは、それが有意性検定の本当の問題です。
言及されている他のいくつかの観点に触れてみましょう。私は誰も批判していないことを非常に明確にしたいと思います。
- 多くの人がp値を本当に理解していない(例えば、nullが本当である確率だと考える)などとよく言われます。ベイジアンアプローチを使用するのが人だけなら、これらの問題はどこかに行って。私は、人々がベイジアンのデータ分析にアプローチするのは、同じように好奇心と機械的な方法であると信じています。ただし、p値を得ることを目標と考えている人がいなければ、p値の意味を誤解することはそれほど有害ではないと思います。
- 「ビッグデータ」の存在は、一般にこの問題とは無関係です。ビッグデータは、「有意性」を中心にデータ分析を整理することは有用なアプローチではないことを明らかにするだけです。
- 私は問題がテストされている仮説にあるとは思わない。推定値がポイント値に等しい場合ではなく、推定値が間隔外にあるかどうかだけを確認したい場合、同じ問題の多くが発生する可能性があります。(繰り返しますが、明確にしたいのは、あなたが 'Bob'ではないことです。)
- 記録のために、最初の段落からの私自身の提案は、私が指摘しようとしたように、問題に対処していないことを言及したいと思います。
私にとってこれが中心的な問題です。私たちが本当に欲しいのは、何が起こったのかを考えるための原則的な方法です。どんな状況でもそれが意味することは、カットして乾燥させることではありません。メソッドクラスの生徒にそれを伝える方法は、明確でも簡単でもありません。重要性テストには、多くの慣性と伝統があります。統計クラスでは、何をどのように教える必要があるかが明確です。学生と開業医の場合、資料を理解するための概念スキーマ、および分析を行うためのチェックリスト/フローチャート(いくつか見ました!)を開発することが可能になります。有意性テストは、だれも愚かでも怠け者でも、悪い人でも、自然にローテットデータ分析に進化できます。 それが問題です。