過去数年間、さまざまな学者が科学的仮説検定の有害な問題を提起しており、これは「研究者の自由度」と呼ばれています。つまり、科学者は分析中に、p値<5%の発見に偏る多くの選択肢を持っています。これらのあいまいな選択は、たとえば、どのケースが含まれるか、どのケースが外れ値として分類されるか、何かが現れるまで多数のモデル仕様を実行するか、nullの結果を公開しないかなどです(心理学におけるこの議論を引き起こした論文はここにあります、人気のスレートの記事を参照し、フォローアップの議論をアンドリュー・ゲルマンことで、ここで、そしてタイム誌にもこの話題に触れここに。)
最初に、1つの明確化の質問:
タイム誌は書いて、
「0.8のべき乗とは、テストされた10の真の仮説のうち、その影響がデータに反映されないため、除外されるのは2つだけであることを意味します。」
これが、教科書で見つけたべき関数の定義にどのように当てはまるかはわかりません。これは、パラメーター関数としてnullを拒否する確率です。異なると我々は異なる力を持っているので、私はかなり上記の引用を理解していません。
第二に、いくつかの研究の影響:
私の政治学/経済学の分野では、学者は利用可能な国年データをすべて使い果たします。したがって、ここでサンプルをいじる必要はありませんか?
複数のテストを実行して1つのモデルのみを報告するという問題は、その分野の他の誰かがあなたの論文を再テストし、堅牢な結果が得られなかったとしてすぐにあなたを打ちのめすという事実によって修正できますか?これを予測して、私の分野の学者は、
robustness check
複数のモデル仕様が結果を変更しないことを示すセクションを含める可能性が高くなります。これで十分ですか?Andrew Gelmanらは、データに関係なく、実際には存在しない「パターン」を見つけて公開することが常に可能であると主張している。しかし、経験に基づく「パターン」は理論によってサポートされなければならないという事実を考えると、これは問題になりません。ある分野内のライバル理論は、どのキャンプがより多くの「パターン」を見つけることができるかを見つけるために議論/競争に参加するだけです。様々な場所で。パターンが本当に疑わしい場合、他のサンプル/設定に同様のパターンがない場合、背後にある理論はすぐに打ち消されます。これが科学の進歩ではないでしょうか?
無効な結果に対するジャーナルの現在の傾向が実際に繁栄すると仮定すると、すべての無効な結果と肯定的な結果を一緒に集計し、それらすべてがテストしようとしている理論を推測する方法はありますか?