Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか?このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか?
Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか?このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか?
回答:
で有意性検定の取るに足りない、ジョンソン(1999)あなたがそれらを作ることができるという点で、そのp値は、任意で述べたあなたは十分なデータを集めることにより、望むように小さなとして、帰無仮説と仮定すると、それはほとんど常にある、falseです。現実の世界では、正確にゼロである準部分相関はありそうにありません。これは、回帰係数の有意性をテストする際の帰無仮説です。P値の有意性のカットオフはさらにarbitrary意的です。有意性と非有意性の間のカットオフとしての.05の値は、原則ではなく慣習によって使用されます。したがって、最初の質問に対する答えは「いいえ」です。適切な重要度のしきい値を決定する原則的な方法はありません。
それで、あなたの大きなデータセットを考えると、あなたは何ができますか?回帰係数の統計的有意性を調査する理由によって異なります。複雑な多因子システムをモデル化し、現実に合理的に適合または予測する有用な理論を開発しようとしていますか?その後、Rodgers(2010)、The Epistemology of Mathematical And Statistics Modelingで説明されているように、より精巧なモデルを開発し、モデル化の観点から考えることも考えられます。大量のデータを持つことの1つの利点は、非常に豊富なモデル、複数のレベルと興味深い相互作用を持つモデルを探索できることです(そうするための変数があると仮定します)。
一方、あなたは統計的に有意かどうか、特定の係数を治療するか否かのいくつかの判断を行いたい場合にまとめたように、あなたは良いの(1982)の提案をしたいかもしれませんウーリー(2003)計算:q値をこれは、p値を100のサンプルサイズに標準化します。正確に.001のp値は、0.045のp値に変換されます-統計的に有意です。
それでは、任意のしきい値などを使用して重要な場合、それは何ですか?これが観察研究である場合、モデルを誤って指定したために現れる偽の関係だけでなく、あなたが考える方法で実際に意味があることを正当化するために、さらに多くの作業があります。小さな効果は、治療効果ではなく、異なるレベルの治療を選択する人々の間の既存の違いを表す場合、臨床的にそれほど興味深いものではないことに注意してください。
コメント者が述べているように、あなたが見ている関係が実際に重要であるかどうかを考慮する必要があります。引用した数字をからr 2に変換する説明する分散についてと(は相関であり、分散を説明するためにそれを平方すると)、それぞれ3%と6%の分散だけが説明されます。
確認する簡単な方法は、1つの分布が2回あることを知っているものから同様に大きな数をランダムにサンプリングし、2つの結果を比較することだと思います。それを数回行い、同様のp値を観察すると、実際の効果がないことが示唆されます。反対にあなたがしなければ、おそらくあります。