帰無仮説を棄却したので、次は何ですか?


23

帰無仮説何度も拒否した、拒否しなかった。却下に失敗した場合、却下の十分な証拠がないと結論付け、「先に進む」(つまり、さらにデータを収集する、実験を終了するなど)

しかし、ときに提供し、帰無仮説を棄却「ん」いくつかのあなたが本当にあなたの対立仮説が実際に成り立つことを「証明」することはできません対立仮説の証拠を。

それでは、帰無仮説を棄却した後の一般的な次のステップは何ですか?調査結果をより決定的なものにするために、「問題をさらに分析する」ためにどのツール/手法を採用していますか?さらなる分析を必要とする統計学者としての論理的な「次のステップ」は何ですか?

例えば:

H0μ1=μ0

H1μ1>μ0(予想される方向がわかっていると言います)

ある有意水準で帰無仮説を棄却すると、代替案が真実であるという「何らかの証拠」が得られますが、その結論を引き出すことはできません。その結論を本当に結論付けたい場合(ダブルワードプレイをご容赦ください)、どうすればよいですか?

私は学部時代にこの質問について考えたことはありませんでしたが、今ではかなり多くの仮説をテストしているので、何が先にあるのか疑問に思います:)



3
一般的に、テスト後は決定後のアクションも選択する必要があります(2種類のエラーのコストをどのように比較し、賢明な選択するのですか?)。少なくとも、推定効果サイズの検討に移行するでしょう。nullは持続可能ではありません(選択した基準により-それで十分でない場合はどうなりますか?)、代わりにどの値がもっともらしいですか?たとえば、指定されたテストでは、データが与えられた場合、値が合理的にもっともらしいでしょうか?αμ1μ0
グレン_b-モニカの復帰14

回答:


10

一般に、より多くのデータでテストする可能性のあるパラメーターの推定値を改善し続けることができます。テストがある程度任意の重要度を達成すると、データ収集を停止することは、悪い推論を行う良い方法です。アナリストは解釈実行されるジョブがどの人によると、ネイマン・ピアソンのフレームワークの多くの意図しない結果の一つであるというサインとして有意な結果を誤解することのp原因としてに値をどちらか拒否するか、予約がに依存せずにヌルを拒否しませんクリティカルしきい値のどちら側に該当するか。

頻繁なパラダイムに対するベイジアンの代替案を考えずに(できれば誰か他の人が)、信頼区間は、基本的な帰無仮説を拒否できる点をはるかに超えて、より有益なものであり続けます。より多くのデータを収集すると、基本的な有意性テストでさらに大きな有意性が達成されると仮定すると(そして、以前の有意性の発見が偽陽性であったことは明らかになりません)、どちらにしてもnullを拒否するため、これは役に立たないかもしれません。ただし、このシナリオでは、問題のパラメーターに関する信頼区間は縮小し続けるため、対象の母集団を正確に説明できる信頼度が向上します。


μ=0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99))α=.05rnorm

set.seed(8);t.test(rnorm(99,1))μ=[.691.12]

μ=.8mu=.8

set.seed(8);t.test(rnorm(999,1),mu=.8)μ=0μ=.8μ=[.901.02]μ=.89

H0μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

漸進的により厳密な帰無仮説をテストするか、さらに良いことに、単純に信頼区間の縮小に焦点を当てることは、進めるための1つの方法にすぎません。もちろん、帰無仮説を拒否するほとんどの研究は、対立仮説に基づいた他の研究の基礎となります。たとえば、相関がゼロより大きいという対立仮説をテストする場合、次のフォローアップ調査でメディエーターまたはモデレーターをテストできます...元の結果を再現できました。


考慮すべきもう1つのアプローチは、テストです。パラメータが単一の値と異なるだけでなく、可能な値の特定の範囲内にあると結論付けたい場合は、従来の対立仮説に従ってパラメータが含まれる値の範囲を指定してテストできますパラメータがその範囲外にある可能性を一緒に表す異なる一連の帰無仮説に対して。この最後の可能性は、あなたが書いたときに念頭に置いていたものに最も似ているかもしれません:

代替案が真実であるという「いくつかの証拠」はありますが、その結論を引き出すことはできません。私が本当にその結論を最終的に描きたいなら...

set.seed(8)rnorm(99)rnorm(99,1)-1μ=.8.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostμ=[.27.09]rnorm(999)μ=[.09.01]

信頼区間は、同等性テストの結果よりも興味深いと思います。これは、人口平均が対立仮説よりも具体的であることをデータが示唆するものを表し、対立仮説で指定したよりもさらに短い間隔内にあることを合理的に確信できることを示唆しています。実証するために、非現実的なシミュレーションの力をもう一度悪用し、「レプリケート」を使用しset.seed(7);tost(rnorm(999),epsilon=.09345092)ます。確かに、p = .002です。


啓発!等価性テストについてお話しする最後の部分の簡単で汚い例を示していただけますか?それがどのように適用できるかを高レベルで見ることは本当に役立つでしょう。
PhD

@PhD:完了。それは「高レベル」よりも「迅速で汚い」ものだと思います。私は自分自身で等価性テストを行うのは初めてであり、あなたが見るように、私はそれに正確に売られていません。
ニックス

10

最初に@Nick Staunerがオプションの停止に関していくつかの非常に重要な引数を作成することに注意してください。サンプルが入ってデータを繰り返しテストし、テストが重要になったら停止すると、重要な結果が保証されます。ただし、保証された結果は実質的に価値がありません。

以下では、控除主義者、懐疑論者、偽造主義者の立場について詳しく説明するための最善の試みを紹介します。確かにそれだけではありませんが、私はむしろ主流のものか、少なくとも少し伝統のあるものだと思います。

私の知る限り、フィッシャーはもともと、データ探索の最初のステップとして有意性検定を導入しました。どの因子がさらに調査する価値があるかを確立します。テスト対象の帰無仮説が実際にあなたの好みの理論が(ありそうにない)依存していた重大な仮説でない限り、ある意味で、あなたの初期テストは本質的に探索的でした。探査に続く可能なステップの中で私は見ます

  • さらなる調査
  • パラメータ推定
  • 予測と確認

さらに調査するフォローアップテストでは、中程度の情報を持っているか、効果と相互作用する変数があるかどうかを推測します。たとえば、参加者の年齢が役割を果たしているかもしれませんか?このような分析は、探索的として明確にラベル付けする必要があります。そうでない場合、基本的に嘘になります。何かにつまずいた場合、まず確認が必要です。一般的に、あなたは思考と文章の両方で、いつあなたが探検をしているのか、いつ確認しているのかを常に明確にする必要があります。

次に、1つのパラメーターの値が正確にゼロであることに自信がないことを確認したら-今のところ、テスト対象の要因に何らかの影響があると判断したら-実行可能な次のステップは、正確な値をさらに推定することですパラメータの。たとえば、現時点では、1つの値0のみを除外しています(両面テストを想定しています)。ただし、データはさらに多くの可能な値に疑問を投げかけます。

αα

ヒュームは、私たちが誘導的に正しい文を証明することは決してできないと主張したことで有名です。一般に、自明でない仮説は、支持するよりも偽造する方がずっと簡単です。原理的には簡単に(簡単ではない、正確な予測をすることにより)改ざんすることはできますが、これまでのところ改ざんされていないことは、実際には理論の最高の美徳の1つです。

そのため、CIでは特定の値を証明することはできません。ただし、候補セットを絞り込みます。たぶん、H0と互換性のない2つの理論のどちらかを決めるのに役立つのは、生き残った唯一の候補者だけでしょう。たとえば、多分0は除外されますが、理論1は5前後の値を予測し、理論2は15前後の値を予測します。95%CIが5を含むが15を除外する場合、理論2の信頼も失われますが、理論は1はゲームに残ります。これは、実際の初期テストが重要であることとは無関係であることに注意してください。拒否されていない値に0が含まれていても、多くの値が拒否されます。他の一部の研究者にとっては、これらの価値のいくつかが興味深いかもしれません。

このように手元の効果の理解をある程度指定した後、理想的には、現在の分析から導き出すことができるより正確な仮説をテストすることを目的とするフォローアップ確認実験のより正確な予測を行うことができます。確かに、最初の統計的帰無仮説を拒否することは、元の研究仮説のテストほど深刻ではなかったのではないですか?あなたが好むものよりも多くの説明はH0に依存しません。また、あなたは実際にH0を受け入れる危険がなかったので、あなたの好む理論を偽造する立場にありませんでした!したがって、より厳しいテストが必要です。おそらく、これは実際にあなたが望むものです。あなたの理論を証明したくない、あなたはそれをますます厳しいテストの下に置き、それを偽造しようとする。それを反証するそのような本物の(しかし公正な)努力に耐えることは、理論が提供できる最高のものです。しかし、厳しいテストでは、「0 it ai n't」よりも正確な理論が必要です。

これで、確認研究に関する複数の重要な事実を学びました。たとえば、問題の分散と効果の大きさを把握しているため、追跡分析に必要なサンプルサイズをパワー解析で推定できます。また、特定の値を予測し、その周囲の実際の等価性 / ROPEの領域を想定することもできます。この特定の値が真の値であることを証明することはできません。ただし、フォローアップ実験のCIが完全にROPEに含まれる場合、理論の裏付けとなる証拠があります(そしておそらく競合に問題をもたらします)。


6

あなたが肯定的な科学的命題を証明することはできないが、それを反証するだけであるという考えは、ポッパーの偽造主義の原理です。効果が特定のポイント値と正確に等しいことを証明できないことに同意します(ここでの私の答えを参照してください:統計学者は、なぜ有意でない結果とは、帰無仮説を受け入れるのではなく「nullを拒否できない」と言うのですか?)。しかし、だから何?

p-値は一般的に誤解されており、仮説テストは論理的に達成できないタスクに使用されます。たとえば、仮説検定を使用して仮説を生成したり、変数を選択したりしないでください。さらに、観測データでは、本質的にすべての「nil」帰無仮説が偽でなければならないため、そのようなテストはほとんど意味がありません。しかし、科学者はしばしば、彼らがテストしたいという現在の理論によって示唆されたアプリオリ仮説を持っています。そして、真の実験では、null nullは真である可能性があります。通常、研究者はヌルが誤っている可能性があると疑う何らかの理由があるので、強力な実験に関連した重要な結果は有効な情報です。

常に信頼区間を形成して、推定の精度をより明確に把握し、より多くのデータを収集して精度を高めることができます。それにもかかわらず、経済的な観点では、収益は減少します。ある時点で、帰無仮説が研究中の現象の合理的な説明を提供するとは思わないでしょう。その場合、なぜあなたは気にしますか?

まだ納得していないが、同じデータをもっと持っている他の人がフィールドにいる場合、続行できますが、これは珍しい状況のようです。私にとって、懐疑論者は、その調査の行が根本的な質問について十分な情報を提供しているかどうかに関して、他の実質的な懸念を持っている可能性が高いようです。したがって、それらの懸念の性質を判断する必要があり、それらが作業に値すると考える場合は、当面の問題により適切に対処するさまざまなデータを探します。たとえば、異なる測定値、異なる設定、および/または異なる制御条件を使用して、結果を再現しようとする場合があります。

一方、誰もが(多かれ少なかれ)あなたのデータと結論に満足するかもしれません(おめでとうございます!)。このような幸福な状況下では、研究プログラムを促進するために追求できる2つの方向があります。

  1. 還元主義のアプローチは、あなたが確立した効果を生み出すメカニズムを理解しようとします。統計的には、多くの場合、メディエーターを探したり、関連性のある変数結び付ける因果関係のパターンを改良したりします。

  2. BCAA

tl; dr:ヌルが偽であるという目的に十分な証拠がある場合は、理論的に動機付けられた他の質問に答えて先に進むことができるかを考えてください。


0

私が付け加えたいと思うのは、あなたの質問が私の若い自己を思い出させるということです。私は自分が書いている論文を改善するのに役立つ方法で「仮説が間違っていた」と書く方法がなかったので、必死に自分の仮説を証明したかったです。しかし、それから「絶対に素敵な仮説を証明できない」ということは科学的な価値も持っていることに気づきました。1.仮説に水が含まれない理由を考えてください。データに問題があるのか​​、それとも仮説自体に問題があるのか​​?2.古い研究の結果はどうなりますか?

例として、以前のデータセットよりも大きい当時の新しいデータセットを使用して、民族的自信に関する修士論文を書きました。「石油燃料による民族紛争」や「山岳部の民族は紛争を経験する可能性が高い」など、いくつかの議論のある仮説をテストしました。石油が民族紛争を引き起こすことは証明できませんでしたが、利用可能な石油データセットの品質が分析にどのように影響するかについて2ページを書きました(データセット自体は時系列であり、油井データセットはそうではありません)。「山が対立を引き起こしている」という論文も失敗でしたが、実り多いものでした。以前の研究では、この論文を国​​レベルのデータ(例えば、国の平均身長など)で分析しました。

留意してください:仮説を反証することは失敗ではなく、証明された仮説と同じくらい良い結果です。


あなたが言及する仮説は、(従来の)帰無仮説ではありません。OPの要点を逃したのではないかと思います。
ニックスタウナー

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.