なぜ統計学者は、帰無仮説を受け入れるのではなく、有意でない結果は「あなたはヌルを拒否できない」ことを意味すると言うのでしょうか?


44

2サンプルt検定のような従来の統計的検定は、2つの独立したサンプルの関数に差がないという仮説を排除しようとすることに焦点を当てています。次に、信頼レベルを選択し、平均の差が95%レベルを超えている場合、帰無仮説を棄却できると言います。そうでない場合、「帰無仮説を拒否することはできません」。これは、私たちもそれを受け入れることができないことを暗示しているようです。帰無仮説が正しいかどうかわからないということですか?

次に、2つのサンプルの関数が同じであるという仮説を立てるテストを設計します(これは、2つのサンプルが異なるという仮説である従来の統計検定の反対です)。したがって、私の帰無仮説は、2つのサンプルが異なるというものになります。このようなテストをどのように設計する必要がありますか?p値が5%未満の場合、有意差がないという仮説を受け入れることができると言うのと同じくらい簡単でしょうか?



平均の差が95%レベルを超えている場合、帰無仮説を棄却できます。95%は「レベル」ではなく、ここでは100ケース中95ケース(比較)であり、サンプリングの変動によりサンプル統計の差異が生じます。つまり、nullはalpha = .05で受け入れられます。95%レベルと言うのは正しい用語ではありません。
Subhash C. Davar

回答:


44

従来、帰無仮説はポイント値です。(通常はですが、実際には任意のポイント値にすることができます。)対立仮説は、真の値はnull値以外の値であるというものです。連続変数(平均差など)は、無期限にnull値に近い値をとることができますが、それでも完全に等しくないため、帰無仮説が偽になるため、従来の点帰無仮説は証明できません。 0

帰無仮説がであり、観察する平均差が0.01であると想像してください。帰無仮説が真であると仮定するのは合理的ですか?まだわかりません。信頼区間がどのように見えるかを知っておくと役立ちます。さんがあなたの95%信頼区間であることを言ってみましょう- 4.99 5.01 。ここで、真の値が0であると結論付ける必要がありますか?CIは非常に広く、データと一貫性があると合理的に疑われる多くの大きなゼロ以外の値があるため、私はそれを言うのは気が進まないでしょう。したがって、はるかに多くのデータを収集し、観測された平均差は0.0100.014.99 5.0100.01しかし、95%CIは、。観測された平均差は同じままでした(実際に発生した場合は驚くべきことですが)が、信頼区間ではヌル値が除外されています。もちろん、これは単なる思考実験ですが、基本的なアイデアを明確にする必要があります。真の値が特定のポイント値であることを証明することはできません。(おそらく)それが何らかのポイント値であると反証することができます。統計的仮説検定では、p値が0.05を超える(および95%CIにゼロが含まれる)という事実は、帰無仮説が真であるかどうかがわからないことを意味します0.005 0.015

具体的なケースとして、対立仮説が平均差があり、帰無仮説がゼロ以外であるという仮説を立てることができません。これは仮説検定の論理に違反します。それがあなたの実質的で科学的な仮説であることは完全に合理的ですが、仮説検定の状況ではあなたの対立仮説になることはできません。 0

だからあなたは何ができますか?この状況では、等価性テストを使用します。(タグをクリックして、このトピックに関するスレッドの一部を読むことをお勧めします。)典型的な戦略は、2つの片側テストのアプローチを使用することです。非常に簡単に言えば、真の平均差が0になる可能性があると見なす範囲を選択します0気をつけて、次に、片側検定を実行して、観測値がその間隔の上限よりも小さいかどうかを判断し、別の片側検定を実行して、それが下限よりも大きいかどうかを確認します。これらのテストの両方が重要である場合、真の値は関心のある範囲外にあるという仮説を拒否しました。一方(または両方)が有意でない場合、真の値が区間外にあるという仮説を棄却できません。

例えば、区間内仮定する何もので、ゼロに近いあなたがあなたの実質的な仮説としてそれを使用して、それは、基本的に自分の目的のためにゼロと同じであると考えることです。ここで、上記の最初の結果が得られると想像してください。が、0.010.02 0.020.01その間隔内に収まる場合、片側t検定で帰無仮説を棄却できないため、帰無仮説を棄却できません。一方、上記の2番目の結果を得たと想像してください。これで、観測値が指定された間隔内に収まり、上限よりも小さく、下限よりも大きいことが示されるため、nullを拒否できます。(それはあなたが拒否することができることは注目に値する、両方の真の価値があるという仮説および仮説はその間隔の外に真の価値嘘- 0.02 0.02 00.02 0.02、最初は戸惑うように見えるかもしれませんが、仮説検定のロジックと完全に一致しています。)


1
「従来、帰無仮説は点の値です」- 場合によっては、帰無仮説を点であるかのように記述しますが、実際には複合です。したがって、最初の段落の引数が一方的なテストにどのような影響を与えるのか興味があります。(行っておりませんので-限り私は知っている-書き込み「を受け入れる」でも一方的なテストのために、私はありません必ず最初の段落キャプチャ我々は受け入れる」書いていない本当の理由H 0を。)H0H0
シルバーフィッシュ

1
@Silverfish、段落は「伝統的な帰無仮説は証明できない」で終わります。ただし、同じ理由で片側のテストに対して「accept 」も記述しません。ときH 0δ 0は、真のδをすることができ> 0が、任意に近い&ので、非有意。< 0であることを本当に表示したい場合は、片側テストの方向を反転できます。ここには問題はありません。H0H0δ0δ>0<0
GUNG -復活モニカ

1
H0

4
δ0δ0H0δ0

1
H0:δ<0H0:δ=0δ>0δ<0実際にそれらの1つを受け入れることにつながる可能性があります(または決定的でない結果)。さらに、片側テストはベイジアンの観点からより理にかなっています。さらに、科学的予測には方向性が必要です。私は、一方的なテストでは十分に評価されていないと考え始めると思います。
アメーバは、モニカの復活を

28

帰無仮説がコインの頭が2である、つまり頭の確率が1である場合を考えてみましょう。データは、コインを1回ひっくり返して頭を見た結果です。これにより、妥当なすべてのアルファよりも大きい1.0のp値が得られます。これは、コインの頭が2つあるということですか?それはそうかもしれませんが、それはまた公平なコインである可能性があり、偶然のために私たちは頭を見ました(公正なコインで時間の50%が起こるでしょう)。したがって、この場合の高いp値は、観測されたデータがヌルと完全に一致しているが、他の可能性とも一致していることを示しています。

裁判所での「無罪」判決が被告が無実であることを意味するように、被告が有罪であるが十分な証拠がないためである可能性もあります。帰無仮説についても同じです。帰無仮説は真である可能性があるため拒否できません。または、偽であっても拒否する十分な証拠がない可能性があります。


3
「無罪」の例が好きです。さらに一歩進んで、過去の使用方法がわからなかったというDNA証拠に基づいてケースを再開し、いくつかの信念を覆すことは、十分な証拠を得るためにデータを追加するだけで十分であるという好例です。
トーマスシュパイデル14

7

証拠の不在は、不在の証拠ではありません(Altmanのタイトル、BMJに関するBlandの論文)。P値は、有意であると見なした場合にのみ不在の証拠を提供します。そうでなければ、彼らは何も教えてくれません。したがって、証拠の欠如。言い換えれば、私たちは知りませんし、より多くのデータが役立つかもしれません。


5

H0

H1H0

H0

2つのサンプルがある場合、同じように分布すると予想される場合、帰無仮説はサンプルが同じであると仮定します。(大きく)異なると予想される2つのサンプルがある場合、帰無仮説はそれらが異なるというものです。


そして、もし私たちが何も期待していなかったら…。また、2つのサンプルが異なるという仮説を拒否したい場合、決定ルールはどのように機能しますか?
ryu576

期待していない場合は、両方のタイプのエラーを小さく保ちたいが、これは常に可能とは限らない。これを行うには、追加の変数(サンプルサイズの増加など)が必要です。
SomeEE 14

2
nullを拒否することはできますが、trueを証明することはできないため、nullは通常、trueであると証明または想定したいものの反対です。違いがあると信じる場合、それを反証できるように、nullは違いがないはずです。
グレッグスノー14

@Gregどちらが正しいかを知っている場合、これは通常のケースです。
SomeEE 14

1
「あなたが期待するもの」と「それらが異なる」は、量的ではないため、統計的な仮説にはなりません。これが問題の核心になります。ヌル仮説と対立仮説の間の役割の非対称性は、ヌルの下での検定統計量のサンプリング分布を決定する能力に由来します。対立仮説。また、「タイプIエラーを最小化する」というケースもありません。それは決して起こりません(最小値は常に0です)。テストでは、タイプIとIIのエラー率のバランスを求めます。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.