なぜ頻繁な仮説検定は、十分に大きいサンプルで帰無仮説を棄却するように偏るのですか?


46

このパッセージにつまずいたとき、私はまったく無関係な問題についてベイズ因子に関するこの記事を読んでいた

ベイズ形式はモデル選択のバイアスを回避し、帰無仮説を支持して証拠を評価し、モデルの不確実性を含み、ネストされていないモデルを比較できるため、ベイズ因子を使用した仮説検定は、頻繁な仮説検定よりも堅牢です同じ従属変数を持つ)。また、十分な大きさのサンプルサイズで帰無仮説を棄却するために、頻繁な有意性検定は偏りが生じます。[強調を追加]

私はで前にこの主張を見てきた脳画像でカールFristonの2012紙、彼はそれを呼び出す、古典推論の誤謬

なぜこれが真実なのかという真に教育的な説明を見つけるのに少し苦労しました。具体的には、私は疑問に思っています:

  1. これが起こる理由
  2. それを防ぐ方法
  3. それに失敗した、それを検出する方法

7
nullが文字通り正確に真である場合は真実ではないため、やや議論の余地がありますが、(スプリアス相関などのあらゆる種類の複雑さのために)まれにしかそうではないため、ほとんどの実用的なアプリケーションではおそらく真実です。仮説的に言えば、サンプルが十分に巨大である場合、制御されていないモデレーターの数は同じであるにも関わらず、数百の変数の長いメディエーターのチェーンにより、最も弱いスプリアス相関(例えば、r = .001)を検出できます おそらく、その関係は実際にはまだ多少... IMO議論の余地があることは本当に「バイアス」だそうかどうか、けれども存在する
ニックStauner

@NickStauner、ああ、それは実際に多くの意味をなします!直感的な説明をありがとう!
blz 14

3
Tal Yarkoniは、Fristonの記事に対して非常に啓発的な批判を書いています。talyarkoni.org
jona

@jona、私はここでcogsciの群衆全体に走っているようです=)参考のために、これは確かに良い読書のように見えます!
BLZ

8
仮定が当てはまると、そのステートメントは現状では厳密に間違っているように見えますが、実際の問題になっています(十分に大きいサンプルでは、​​NHSTはどんなに小さな効果でも誤ったヌルを拒否することがほぼ確実になります) 。人々が問題に気付いたとき、それは通常、仮説検定が彼らが必要なものではないことを示します。この仮説では、同じ基本的な問題(仮説検定ではなくCIの観点から枠
組ま

回答:


44

質問1への回答:これは、真の差が正確にゼロである場合に、頻繁な差の検定(つまり、差のない帰無仮説/等式の検定)でサンプルサイズが増加すると値が任意に小さくなるために発生します。 zero意的にゼロに近いのではなく、現実的ではありません(OPに対するNick Staunerのコメントを参照)。 frequentist検定統計量の誤差は、一般ことを結論して、サンプルサイズが減少するので-valueは任意に小さくなり、すべての差が十分に大きなサンプルサイズの任意のレベルに有意です。コスマシャリジはこのことについて熱心に書いています。Ppp

質問2への回答:頻繁な仮説テストフレームワーク内で、差異の検出のみを推論ないことで、これを防ぐことができます。たとえば、違い等価性に関する推論を組み合わせて、効果の証拠に対する証拠の証拠と効果の欠如の証拠の証拠の負担を好まない(または混同する)ことはできません。効果の欠如の証拠は、例えば、

  1. 等価性に関する2つの片側検定(TOST)、
  2. 等価性のための均一最も強力なテスト、および
  3. 同等性への信頼区間アプローチ(すなわち、検定統計量の%CIが事前に定義された同等性/関連性の範囲内にある場合有意性のレベルで同等性を結論付けます)。α12αα

これらのアプローチがすべて共有しているのは、どの効果サイズが関連する差異構成するかについての先験的な 決定、少なくとも関連があると考えられるものと同じくらい大きな差異の観点から見た帰無仮説です。

このように、差の検定と等価性の検定からの結合推論は、このようにサンプルサイズが大きい場合に説明するバイアスから保護します(差の結合検定から生じる4つの可能性を示す2行2列の表-実証主義帰無仮説、H —および同等性—ネガティビストの帰無仮説、H):00+0

差の検定と等価性の検定を組み合わせた4つの可能性

お知らせ左上の象限:取り押さえテストは1であるイエスは、あなたは違いがないの帰無仮説を棄却しますが、関連する差の帰無仮説を棄却するので、そう違いはありますが、あなたはしている演繹的にあなたが気にしないことを決めました小さすぎるからです。

質問3への回答: 2への回答を参照してください。


2
このような答えが、私がここに来続ける理由です。ありがとうございました!
blz

2
1αα2α


2
「質問1への回答」は実際にはMichael Lew-Alexisによってはるかに適切に回答されていますが、これが続くことはほぼ明らかであるので、おそらくあなたはあなたの答えを修正することができます数学的に言えば、バイアスの通常の定義によれば、仮説検定は実際には大きなサンプルサイズによってバイアスされていません(実際には、小さなサンプルサイズが問題になる可能性があります)!
フロリアンハーティグ

3
問題を理解し、評価に同意します。最初に!H0が無限に存在する可能性があり、パワーが1に近い場合、仮説テストを行うことは情報価値がなく、誤解を招く可能性があります。バイアスの定義が、方法は尋ねるべきでないと思う質問に正しい結果を与えるというものでない限り。
フロリアンハーティグ

21

帰無仮説が真である場合、大規模なサンプルを使用した頻繁なテストでは、帰無仮説を拒否する傾向はありません。検定の仮定が有効で帰無仮説が真である場合、小さなサンプルよりも大きなサンプルが帰無仮説の棄却につながるリスクはありません。nullがtrueでない場合、喜んで拒否します。したがって、大きなサンプルが小さなサンプルよりも頻繁にfalse nullを拒否するという事実は、「バイアス」ではなく適切な動作です。

「圧倒的な実験」の恐怖は、帰無仮説がほぼ真である場合に棄却するのは良いことではないと仮定することに基づいています。しかし、それがほぼ真である場合、実際には偽です!拒否しますが、観察された効果の大きさに気づかないようにします(そして明確に報告します)。それは些細なことであり、したがって深刻な検討に値しないかもしれませんが、その問題に関する決定は、仮説検定の外部からの情報を検討した後になされなければなりません。


2
00+本当に小さい

6
@Alexis 2番目の段落をもう一度読みます。私は本当にちょっぴり小さいのは実質的に重要ではないが、論理的にゼロでもないことに絶対に同意します。
マイケルルー

6
一般に価値のないコメントで申し訳ありませんが、@ MichaelLew、あなたの答えは本当に気に入りました。最初の文は非常に重要であり、Alexisの回答で効率的に説明されたとは思わない(もちろん素晴らしい)。
リチャードハーディ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.