両側検定...私は納得していません。ポイントは何ですか?


58

次の抜粋はエントリからのものです。片側検定と両側検定の違いは何ですか?、UCLAの統計ヘルプサイトで。

...他の方向の効果を見逃した場合の結果を考慮してください。既存の薬物よりも改善されたと思われる新しい薬物を開発したと想像してください。改善を検出する能力を最大限に高めたいため、片側検定を選択します。そうすることで、新薬が既存の薬よりも効果が低い可能性をテストすることに失敗します。

仮説検定の絶対的な基礎を学び、1対2検定の一部を理解した後... 1検定の基本的な数学と検出能力の向上などを理解しました。一つのことについて...ポイントは何ですか?サンプルの結果がどちらか一方のみであるか、どちらでもない場合に、アルファを2つの極端に分割する必要がある理由を本当に理解できていません。

上記の引用テキストからシナリオ例をご覧ください。どうして逆方向の結果を「テストに失敗する」のでしょうか?サンプルの平均値があります。人口の平均値があります。単純な算術により、どちらが高いかがわかります。反対方向にテストする、またはテストに失敗するものは何ですか?サンプルの平均が他の方向に外れていることがはっきりとわかる場合、反対の仮説でゼロから始めただけで何が止まっているのでしょうか?

同じページからの別の引用:

帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。

これは、片側検定の極性の切り替えにも当てはまると思います。しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。

明らかに私はここで写真の大部分を見逃しています。それはただarbitrary意的すぎるように思えます。これは、「統計的に有意な」ことを示すもの-95%、99%、99.9%...という意味で、最初は任意です。


18
これは私にとって完全に良い質問のようです、+ 1。
GUNG -モニカ元に戻し

5
データを収集する前に実験とテストを設計する必要があることは間違いありませんが、新薬は多くの抗議なしに片側テストでテストされることが多いという事実を考えると、薬物の例はむしろ興味深いものです。
P-Gn

3
@ user1735003皮肉な記事で、気分/行動を規制する多くの製薬試験を考慮すると、オブザーバーバイアスに対する監視がますます厳しくなっています。ここでリタリンのおもしろいコクラン。「プラセボの優位性を主張する」というのは、どの裁判官も「害」と呼ぶものなので、私はそれが少なくとも考えられないとは思いません。しかし、これらの試験では、研究が危害のために停止した場合、有害事象からのシグナルです。
AdamO

10
「サンプルの平均値があります。人口の平均値があります。サンプル平均値が他の方向にずれていることが明確にわかった場合、反対の仮説でゼロから始めたのはどうしてですか?」。いいえ、仮説検定の要点は、母平均を持たないことであり、母平均に関する仮定を検定するために標本平均を使用しています(帰無仮説)。そのため、「サンプル平均が明らかに外れていることを明確に確認する」ことはありませんこれは、それが正確にテストしているものであり、与えられたものではないからです。
StAtS

1
問題は、多くの場合、極性がわからないということです。そのため、両側検定を実行する必要があります。どのプラグが正であるかわからないときに電圧計をDC電源に接続することを想像してください
-Aksakal

回答:


45

データを氷山の一角と考えてください。水面上に見えるのは氷山の一角だけですが、実際には氷山全体について何かを学ぶことに興味があります。

統計学者、データサイエンティスト、およびデータを扱う他の人は、水線の上に見えるものに影響を与え、水線の下に隠れているものの評価にバイアスをかけないように注意します。このため、仮説テストの状況では、彼らは、氷山全体を見ることができる場合に何が起こるかについての期待(またはその欠如)に基づいて、氷山の先端を見るに帰無仮説と対立仮説を定式化する傾向があります。

データを見て仮説を​​立てるのは悪い習慣であり、避けるべきです-それは馬の前にカートを置くようなものです。データは、関心のある対象集団/ユニバースから選択された単一のサンプルから取得されることを思い出してください(ランダムな選択メカニズムを使用して)。サンプルには独自の特異性があり、それは基礎となる母集団を反映している場合と反映していない場合があります。人口全体ではなく人口の狭いスライスを仮説に反映させたいのはなぜですか?

これについて考える別の方法は、ターゲット母集団からサンプルを選択するたびに(ランダム選択メカニズムを使用して)、サンプルは異なるデータを生成することです。データ(使用すべきではない!!!)を使用して、帰無仮説と対立仮説の指定をガイドする場合、仮説はマップ全体に存在し、基本的に各サンプルの特異な特徴によって駆動されます。もちろん、実際には1つのサンプルのみを描画しますが、他の誰かが同じサイズの異なるサンプルを使用して同じ研究を行った場合、彼らの仮説を変更して仮説を変更する必要があることを知ることは非常に不穏な考えです彼らのサンプル。

私の大学院教授の一人は、「人口について何かを教えてくれることを除いて、サンプルについては気にしません」という非常に賢明な発言をしていました。私たちは仮説を定式化して、その母集団から選択した1つのサンプルについてではなく、ターゲット母集団について何かを学びたいと思います。


1
@ subhashc.davar:あなたが私の答えの関連性を見ていないからといって、他の誰かが見ないという意味ではありません。回答は、質問をした人だけではなく、コミュニティ全体に対するものであることに注意してください。あなたがこれについて強く感じたら、私の答えを削除させていただきます。
イザベラゲーメント

7
@ subhashc.davar例が役立ちます:スナックがパフォーマンスに影響を与えるかどうかをテストするとします。実験を実行すると、スナックでわずかなスコアの増加が見られます。すばらしいです!片側テストを実行して、スナッカー>非スナッカーかどうかを確認します。問題:スナックのパフォーマンスが悪いサンプルを描いたらどうしますか?スナック<ノンスナックの片側検定をしましたか?もしそうなら、あなたはエラーをコミットし、サンプルの特異性にテストをガイドさせます。
RM

21
私の教授からの逸話:「産科病棟で友人の生まれたばかりの娘を訪問しました。20人の子供と20人のうち18人がピンクの帽子をかぶっていました。 / 50。それは非常に統計的に有意でした。だから誰が私と一緒にこの論文を書きたいですか?誰もいませんか?なぜ?仮説をテストするために仮説を生成したデータを使用することはできません。
AdamO

4
@AdamOあなたのコメントは、答えそのものよりも良い説明だと思いました。最後の文章を「仮説をテストするために仮説を生成したのと同じデータを使用するべきではない」と言い換えます。関連する意味は、以前に選択したテストの結果に基づいて仮説を変更しても問題ないということです。ただし、新しいデータで新しい仮説をテストする必要があります。
ケニーエビット

3
@KennyEvittはい、まさにその通りです。偶発的な発見は重要であり、報告する必要がありますが、事前に指定された仮説として販売すべきではありません。
AdamO

18

質問を検討するとき、帰無仮説有意性検定(NHST)の目標/販売ポイントを念頭に置いておくと役立つと思います。これは統計的推論の1つのパラダイム(非常に一般的なものですが)であり、他にも独自の長所があります(たとえば、ベイジアン推論に対するNHSTの説明については、こちらを参照してください)。NHSTの大きなメリットは何ですか?:長期にわたるエラー制御。NHSTのルール(場合によっては非常に大きなルール)を順守すれば、長期的には、自分の推論に対して間違っている可能性を十分に理解することができます。

NHSTの強引なルールの1つは、テスト手順をさらに変更することなく、目的のテストを1回だけ見ることができるということです。実際の研究者は、このルールを無視する(または知らない)ことが多く(Simmons et al。、2012を参照)、データの波を追加した後に複数のテストを実行し、p-変数をモデルに追加/削除した後の値など。これに関する問題は、研究者がNHSTの結果に関してほとんど中立的でないことです。彼らは、重要な結果が重要でない結果よりも公表される可能性が高いことを鋭く認識している(見当違いで正当な理由により、Rosenthal、1979)。そのため、研究者はデータを追加したり、モデルを修正したり、外れ値を選択したり、重要な効果を「発見」するまで繰り返しテストしたりすることがしばしばあります(John et al。、2011、良い紹介を参照)。

直観に反する問題は、上記の手法によって作成され、Dienes(2008)で詳しく説明されています。研究者が、有意性が達成されるまでサンプル/設計/モデルの調整を続けると、望ましい誤検出結果の長期エラー率(多くの場合、)およびfalse-negativeの結果(多くの場合)は、それぞれ1.0および0.0に近づきます(つまり、、偽でもでも常に拒否します)。β = 0.20 H 0α=.05β=.20H0

特定の質問の文脈において、研究者は、効果の方向に関して特定の予測を行いたくない場合、デフォルトとして両側検定を使用します。推測が間違っていて、効果の方向に片側検定を実行すると、長期のが膨らみます。記述統計を見て、トレンドの目玉に基づいて片側検定を実行すると、長期的なが膨らみます。これは実際には大きな問題ではないと思うかもしれませんが、値は長期的な意味を失いますが、意味を保持しないと、なぜ推論するアプローチを使用しているのかという疑問が生じます長期的なエラー制御を優先します。αのPααp

最後に(そして個人的な好みの問題として)、最初に両側検定を実行し、それが重要でないことがわかってから、最初の検定が意味する方向に片側検定を実行し、それが重要であることが判明した場合、あなたは別のサンプルでその効果を厳密に確認複製を行い、同じ用紙に複製を発表(および場合のみ)。同じ分析の柔軟性がなくても、新しいサンプルで効果を再現できる限り、エラー率を膨らませる柔軟な分析手法による探索的データ分析は問題ありません。

参照資料

ジエンズ、Z。(2008)。科学としての心理学の理解:科学的および統計的推論の紹介。パルグレイブ・マクミラン。

ジョン、LK、ローウェンシュタイン、G。、およびプレレック、D。(2012)。真実を伝えるためのインセンティブを使用して、疑わしい研究慣行の有病率を測定する。心理学、23(5)、524-532。

ローゼンタール、R。(1979)。ファイルドロワーの問題とnull結果の許容範囲。心理学紀要、86(3)、638。

シモンズ、JP、ネルソン、LD、およびサイモンソン、U。(2011)。偽陽性心理学:データの収集と分析における非公開の柔軟性により、重要なものは何でも提示できます。心理学、22(11)、1359-1366。


とてもいい答えです。最近のリサーチペーパー(素人)での調査で私が抱えていたいくつかの懸念をまとめるのを助け、「ネガティブ相関」の方向が偽。
Venryx

10

残念ながら、医薬品開発のやる気を起こさせる例は、私たちが医薬品を開発するために行っていることではないため、良い例ではありません。トレンドが危害の側にある場合、研究を停止するために、異なる、より厳しいルールを使用します。これは、患者の安全のためであり、また薬が有意義な利益の方向に魔法のように揺れる可能性が低いためです。

それでは、なぜ2つの末尾のテストを行うのでしょうか?(ほとんどの場合、モデル化しようとしている効果の可能な方向についての先験的な概念があるとき)

帰無仮説が負担すべきいくつかの通知、もっともらしい、と正当化という意味で、信念に類似します。ほとんどの場合、人々は「面白くない結果」は効果が0であることに同意しますが、負または正の効果は同じ関心です。複合帰無仮説を明確にすることは非常に困難です。たとえば、統計が等しいか、一定量未満。科学的発見を理解するためには、帰無仮説について非常に明確でなければなりません。複合仮説検定を実施する方法は、帰無仮説の統計が観測データの範囲内で最も一貫した値をとることです。そのため、効果が予想どおり正の方向にある場合、null値はとにかく0であると見なされ、不必要にムートされています。

両側のテストは、複数の比較のためにコントロールを使用して2つの片側テストを実行することになります!ツーテールテストは、長期的にはより保守的になるため、実際には部分的に評価されます。効果の方向について十分に確信している場合、2つのテールのテストでは、誤検出が半分になりますが、電力に対する全体的な影響はほとんどありません。

ランダム化比較試験で治療を評価する場合、一方的な試験を私に売ろうとしたなら、「さて、なぜ治療が実際に有害であると信じるのか?実際に証拠があるのか​​?これをサポートしますか?等ポイズ[有益な効果を示す能力]さえありますか?」一方的なテストの背後にある論理的な矛盾は、研究全体に疑問を投げかけます。本当に何もわかっていない場合、0以外の値は興味深いと見なされ、両側検定は単なる良いアイデアではなく、必要です。


8

これにアプローチする1つの方法は、仮説検定を一時的に忘れ、代わりに信頼区間について考えることです。片側検定は片側信頼区間に対応し、両側検定は両側信頼区間に対応します。

母集団の平均を推定するとします。当然、サンプルを取得してサンプル平均を計算します。額面でポイント推定を行う理由はないので、真の平均が含まれていると合理的に確信している間隔で答えを表現します。どのタイプの間隔を選択しますか?両側の間隔は、はるかに自然な選択です。片側区間は、推定値の上限または下限のいずれかを単に気にする必要がない場合にのみ意味があります(一方向の有用な境界を既に知っていると思われるため)。どのくらいの頻度で状況について本当に確信していますか?

おそらく、質問を信頼区間に切り替えても、実際にそれが特定されるわけではありませんが、片側検定ではなく両側信頼区間を選択することは方法論的に矛盾しています。


4

仮説検定の絶対的な基礎を学び、1対2尾検定の一部を理解した後... 1尾検定の基本的な数学と検出能力の向上などを理解しました...一つのことについて...ポイントは何ですか?サンプルの結果がどちらか一方のみであるか、どちらでもない場合に、アルファを2つの極端に分割する必要がある理由を本当に理解できていません。

問題は、母集団の平均がわからないことです。本当の人口平均を知っている現実世界のシナリオに出会ったことはありません。

上記の引用テキストからシナリオ例をご覧ください。どうして逆方向の結果を「テストに失敗する」のでしょうか?サンプルの平均値があります。人口の平均値があります。単純な算術演算により、どちらが高いかがわかります。反対方向にテストする、またはテストに失敗するものは何ですか?サンプルの平均が他の方向に外れていることがはっきりとわかる場合、反対の仮説でゼロから始めただけで何が止まっているのでしょうか?

私はあなたの段落を数回読みましたが、あなたの議論についてはまだわかりません。言い換えますか?選択した重要な地域にデータが到達しない場合、「テスト」に失敗します。

これは、片側検定の極性の切り替えにも当てはまると思います。しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。

p値のハッキングは不適切であるため、引用は正しいです。「荒野で」p-hackingについてどれだけ知っていますか?詳細があります。

明らかに私はここで写真の大部分を見逃しています。それはただarbitrary意的すぎるように思えます。これは、「統計的に有意な」ことを示すもの-95%、99%、99.9%...という意味で、最初は任意です。助けて?

任意です。そのため、データ科学者は一般にp値自体の大きさ(有意または無意味ではない)と効果の大きさを報告します。


明確にするために、私は統計的推論の基礎そのものに挑戦するつもりはありません。私が述べたように、私は非常に基本的なことを学んだばかりであり、正しいテストを使用しないと潜在的な発見がどのように見逃されるかを理解するのに苦労しています。
FromTheAshes

仲間のジョーが植物の成長を大いに促進すると主張する新製品を発明したとしましょう。興味をそそられて、あなたはコントロールグループと治療グループで頑健な研究を考案します。あなたのヌル催眠。成長に変化はないということです、あなたの代替の誇大広告。ジョーの魔法のスプレーが成長を大幅に増加させるということです-片側テストです。2週間後、最終的な観察を行い、結果を分析します。治療グループの平均成長は、コントロールの下で5標準誤差を超えることが判明しました。テストの選択により、この非常に重要な発見は、それほど明白ではないか、または有効ではありませんか?
FromTheAshes

2
コイントスでヘッドまたはテールをコールするように頼むと、結果を予測する確率は50/50です(バランスの取れたコインと正直なフリッパーを想定)。ただし、最初にコインを裏返して、それを見てから予測を立てると、50/50ではなくなります。アルファレベルが.01の片側検定を実行しているが、p <.01が他の方向にあるために結果を確認してから試験の方向を反転させると、タイプIエラーのリスクはもはや0.01になります。しかし、はるかに高い。観測されたp値とタイプIエラー率は同じではないことに注意してください。
dbwilson

@FromTheAshesは、まさにその基盤に挑戦しようとすることに何の問題もありません。統計的仮説検定は役に立たないわけではありませんが、大規模な論理的欠陥を含んでおり、それらに挑戦することは絶対に合理的です!
ヒラメ

3

さて、すべての違いはあなたが答えたい質問に依存しています。質問が「値の1つのグループが他のグループよりも大きいか」という場合 片側検定を使用できます。質問に答えるには:「これらの値のグループは異なりますか?」両側検定を使用します。一連のデータが別のデータよりも統計的に高いかもしれないが、統計的に異なるわけではないことを考慮してください...そしてそれは統計です。


1
'質問が「値の1つのグループが他のグループよりも大きい場合」片側検定を使用できます。」より正確には、質問が「この特定のグループは他のグループよりも大きいか」である場合、両側検定を使用する必要があります。
累積

「そして、ちなみに、他のグループが実際に大きいように見えても、私は気にしない」という質問をしている場合、それは一種の暗示であることに注意すべきです。あなたが期待するものの反対を見て、仮説検定の方向を反転させ続けるならば、あなたはずっとずっと自分に嘘をついていたので、最初から両側検定を行うべきでした。
デイソン

2

しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。

アルファ値は、nullが真である場合に、nullを拒否する確率です。ヌルは、サンプル平均が平均ゼロで正規分布していると仮定します。P(sample mean> 1 | H0)= .05の場合、ルール「サンプルを収集し、サンプルの平均が1より大きい場合はnullを拒否する」は、nullが5%の場合、確率があります。 nullを拒否します。ルール「サンプルを収集し、サンプル平均が正の場合、サンプル平均が1より大きい場合はnullを拒否し、サンプル平均が負の場合、サンプル平均が1より小さい場合はnullを拒否します」 nullがtrueである場合、nullを拒否する確率は10%です。したがって、最初のルールのアルファは5%で、2番目のルールのアルファは10%です。両側検定から始める場合、データに基づいて片側検定に変更すると、2番目の規則に従っているため、アルファを5%として報告するのは不正確になります。アルファ値は、データが何であるかだけでなく、それを分析する際にどのルールに従うかによって異なります。データのみに依存するものではなく、このプロパティを持つメトリックを使用する理由を尋ねている場合、それはより複雑な質問です。


2

2点目について

帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。

nullがtrueの場合、最初の両側検定は確率で誤って拒否しますが、片側も第2段階で拒否する可能性があります。α

したがって、全体的な拒否の確率は超え、テストしていると思われるレベルでテストしていません- 戦略が適用されるケースの真の帰無仮説。α 100 αα100%

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
α+α2>α
α/21α1α/21α/2

以下に、数値の例を示します。

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

p<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


そして、もちろん、研究者の自由度と呼ばれるものがあります。十分なデータがあり、希望する方法で自由にテストできる場合は、あらゆる種類のデータで重要性を見つけることができます。これが、データを見る前に行うテストを決定することを意図している理由です。他のすべては、再現不可能なテスト結果につながります。YouTubeにアクセスして、Andrew Gelmansの講演「データに関する犯罪」をご覧ください。


1
うーん、帰無仮説は結果がランダムではないということです。これは、自分の仕事の結果を一定の結果を達成するものとして非常に見ている臨床医や科学者にとって混乱を招くでしょう。
AdamO

1
「片側テストを開始したら...」ポイントが重要です。が一般的である理由は、ロザムステッドでのRAフィッシャーの実際の経験は、一般に期待値から超える標準偏差であるため、さらに調査する価値があることであり、これから、彼は経験則として両側検定を選択しました、逆ではありません。したがって、片側の等価物はα=0.052 5 2.5 0.0525%2.5%
ヘンリー

1

一見したところ、これらのステートメントはどちらも、両側テストが片側研究よりも「優れている」という主張をしていません。テストされている統計的推論にリンクされている、テストされている研究仮説からの論理的な接続が必要です。

例えば:

...他の方向の効果を見逃した場合の結果を考慮してください。既存の薬物よりも改善されていると思われる新しい薬物を開発したと想像してください。改善を検出する能力を最大限に高めたいため、片側検定を選択します。そうすることで、新薬が既存の薬よりも効果が低い可能性をテストすることに失敗します。

まず、これは薬物研究です。したがって、反対方向に間違っていることは、統計の枠組みを超えた社会的重要性を持っています。したがって、多くの人が言っているように、健康は一般化するのに最適ではありません。

上記の引用では、別の薬がすでに存在する場合に薬をテストすることについてのようです。私にとって、これはあなたの薬がすでに有効であると仮定されていることを意味します。この声明は、その後の2つの有効な薬物の比較に関するものです。比較結果を改善するために、人口の片側を無視している場合、これらの分布を比較しますか?それは偏った結論だけでなく、比較はもはや正当な正当なものではありません:あなたはリンゴをオレンジと比較しています。

同様に、統計的推論のために結論に違いはなかったが、社会的に非常に重要であるという点の推定値が非常によくあります。これは、サンプルが人々の生活を表しているためです。「再発」することはできず、貴重なものです。

あるいは、この声明は、研究者が「改善を検出する能力を最大限に高めたい...」というインセンティブを持っていることを意味します。

帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。

繰り返しますが、これは研究者がテストを「両面」から「片面」に「切り替える」ことを意味します。これは決して適切ではありません。テストの前に研究目的を持つことが不可欠です。常に両面アプローチの利便性をデフォルトにすることにより、研究者は都合よく現象をより厳密に理解できません。

実際に、このまさにトピックに関する論文があります。実際には、両面テストが過剰に使用されていると主張しています。

これは、以下の欠如に関する両面テストの過剰使用を非難します。

研究仮説とその統計的仮説の明確な区別と論理的つながり

研究者は次のような立場と姿勢を取ります。

2つの表現モードの違いや、研究仮説を統計的仮説に変換すべき論理的な流れを認識していない可能性があります。両側検定の使用が不適切な状況であっても、研究と統計的仮説の利便性重視の混合が両側検定の過剰使用の原因である可能性があります。

統計テストの結果を解釈する際に正確な統計を把握することが必要です。保守的であるという名前で不正確であることはお勧めできません。その意味で、著者は「0.05の有意水準で統計的に有意であることが判明した(すなわち、p <0.05)」などのテスト結果を単に報告するだけでは十分ではないと考えています。

両側検定は理論上はより保守的ですが、方向性のある研究仮説とその統計的仮説の間のリンクを切り離し、p値が二重に膨らむ可能性があります。

著者はまた、反対の方向で重要な結果を見つけるための議論が正当化の文脈よりむしろ発見の文脈でのみ意味を持っていることを
示しました。研究仮説とその基礎となる理論をテストする場合、研究者は発見の文脈と正当化の文脈に同時に取り組むべきではありません。

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

多くの場合、対立仮説に対する帰無仮説に対して有意性検定が実行されます。これは、片側と両側の違いが生じる場合です。


  • p値の場合、これ(2つまたは片側)は重要ではありません!重要な点は、帰無仮説が真であるときの時間の割合でのみ発生する基準を選択することです。これは、両方の尾の2つの小さな部分、または1つの尾の大きな1つの部分、またはその他のいずれかです。α

    タイプIのエラー率は、片側テストでも両側テストでも変わりません。

  • その一方で、パワーにとっては重要です。

    対立仮説が非対称である場合、このテール/エンドのみで帰無仮説を棄却するために基準に焦点を当てたいと思います。対立仮説が真である場合、帰無仮説を棄却しない(「受け入れる」)可能性が低くなります。

    あなたの対立仮説が対称的であり(特定の1つの側面に多少の力を置くことを気にしない)、両側の偏向/効果が等しく期待される(または単に未知/知らされていない)場合、それを使用することはより強力です両側テスト(テストしていないテールの50%の電力を失うことはなく、多くのタイプIIエラーが発生する場所)。

    タイプIIエラー率は、片側検定と両側検定で異なり、対立仮説にも依存します。

効果が片側または両側に落ちると予想するかどうかについての先入観を含むようになり、テストを使用したい場合(改ざんできるかどうかを確認するために)帰無仮説)効果のような「確証」またはより可能性の高い何かを作成します。


0

それでもう一つの答えの試み:

片側と両側のどちらを取るかは、対立仮説に完全に依存していると思います。

t検定の平均値をテストする次の例を考えてみましょう。

H0:μ=0

Ha:μ0

ここで、非常に負のサンプル平均または非常に正のサンプル平均を観察した場合、仮説は真実ではない可能性があります。

一方、負でも正でも、サンプル平均が近い場合は、仮説を受け入れます。ここで、サンプルの平均が下がる場合に、帰無仮説を棄却しない間隔を選択する必要があります。明らかに、中心とする負の側面と正の側面の両方を持つ間隔を選択します。したがって、2つの側面のテストを選択します。0 00

しかし、をテストするのではなく、をテストしたい場合はどうでしょう。ここで直感的に行うことは、サンプル平均の値が非常に負になる場合、nullを確実に拒否できることです。そのため、サンプル平均の非常に負の値に対してのみnullを拒否します。μ=0μ0

ちょっと待って!それが私の帰無仮説の場合、どのように自分の帰無分布を設定しますか。サンプル平均のヌル分布は、母集団パラメーターの想定値(ここでは)で既知です。しかし、現在のnullの下では、多くの値を取ることができます。0

無限の帰無仮説ができるとしましょう。それぞれが正の値を想定しています。しかし、これを考えて最初の仮説で、非常に負のサンプル平均を観察することでnullのみを拒否する場合、次のすべての仮説も拒否します。それらの場合、標本平均は母集団パラメーターからさらに遠いためです。ですから、基本的に私たちが本当にする必要があるのは、片側だけの仮説を立てるだけです。μH0:μ=0H0:μ>0

したがって、ソリューションは次のようになります。

H0:μ=0

Ha:μ<0

最良の例は、定常性のディッキーフラーテストです。

お役に立てれば。(図を含めたいが、モバイルから返信する)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.