これは非常に良い質問だと思います。疫学から計量経済学に至るまでの分野を悩ませている論争の多い複数のテスト「問題」の核心になります。結局、見つけた重要性が偽であるかどうかをどのようにして知ることができますか?多変数モデルはどの程度真実ですか?
ノイズ変数を公開する可能性を相殺するための技術的アプローチに関しては、サンプルの一部をトレーニングデータとして使用し、残りをテストデータとして使用することをお勧めします。これは技術文献で議論されているアプローチなので、時間をかけると、おそらくそれをいつどのように使用するかの良いガイドラインを見つけることができるでしょう。
しかし、複数のテストの哲学をより直接的に理解するには、以下で参照する記事を読むことをお勧めします。複数のテストの調整は多くの場合有害であり(コストがかかる)、不要であり、論理的な誤acyでさえあるという立場を支持する記事があります。私は、ある予測因子を調査する能力が別の予測因子の調査によって容赦なく低下するという主張を自動的に受け入れません。家族単位のタイプ1のエラー率は限り我々はサンプルサイズ、それぞれのタイプ1エラーの確率の限界を超えていないとして、我々は与えられたモデルでより多くの予測因子を含めるよう増えるかもしれないが、個々予測変数は一定です。また、家族ごとのエラーを制御しても、どの特定の変数がノイズで、どの変数がノイズではないかはわかりません。もちろん、説得力のある反論もあります。
したがって、可能性のある変数のリストをもっともらしいものに限定する限り(つまり、結果への既知の経路があるはずです)、スプリアスのリスクはすでにかなりうまく処理されています。
ただし、予測モデルは、その予測子の「真理値」に因果モデルほど関心がないと付け加えます。モデルには多くの交絡があるかもしれませんが、分散の大部分を説明する限り、あまり心配する必要はありません。これにより、少なくともある意味で作業が簡単になります。
乾杯、
ブレンデン、生物統計コンサルタント
PS:2つの別個の回帰の代わりに、記述したデータに対してゼロ膨張ポアソン回帰を実行することもできます。
- Perneger、TV Bonferroniの調整の何が問題になっていますか。BMJ 1998; 316:1236
- Cook、RJ&Farewell、VT 臨床試験の設計と分析における多重度の考慮事項。Journal of the Royal Statistical Society、シリーズA 1996; 巻 159、1番:93-110
- ロスマン、KJ 多重比較に調整は必要ありません。疫学 1990; 巻 1、1番:43-46
- マーシャル、JR データのedとノートワージネス。疫学 1990; 巻 1、1番:5-7
- Greenland、S.&Robins、JM Empirical-Bayesの複数比較の調整が役立つ場合があります。疫学 1991; 巻 2、4番:244-251