この質問に答えるには、因果モデリングが鍵になると思います。最初に直面するのは、データを見さえする前に、関心のある調整/階層化/制御された正しい効果を特定することです。成人の身長と肺活量の関係を推定する場合、喫煙は成長を阻害し、肺活量に影響を与えるため、喫煙状況を調整します。交絡因子は、関心のある予測子に因果関係があり、関心のある結果に関連付けられている変数です。ジュデアパールの因果関係、第2版を参照してください。データ収集プロセスが合理的なロジックと以前の探索的研究からの事前の知識の使用を開始する前に、正しい交絡変数の分析を指定して強化する必要があります。
ただし、これは、一部の研究者が調整変数を選択するためにデータ駆動型の方法に依存していないことを意味しません。確認分析を行う場合、実際にこれを行うことに同意しません。複数の調整済みモデルのモデル選択におけるいくつかの一般的な手法は、前方/後方モデル選択であり、少なくとももっともらしいと思われるモデルのクラスに制限できます。このためのブラックボックスAIC選択基準は可能性に関連しているため、減少の度合いR2これらの調整変数の線形モデル。疫学に共通するもう1つのプロセスは、変数が主効果(オッズ比やハザード比など)の推定値を少なくとも10%変更した場合にのみモデルに追加されるというものです。これはAICベースのモデル選択よりも「より正確」ですが、このアプローチにはまだ大きな注意点があると思います。
私の推奨は、仮説の一部として目的の分析を事前に指定することです。年齢調整済みの喫煙/がんリスクは異なるパラメーターであり、対照研究では、粗雑な喫煙/がんリスクとは異なる推論につながります。主題の知識を使用することは、回帰分析で調整するための予測子を選択する、または実験および準実験計画のさまざまな他のタイプの「制御された」分析での層化、マッチング、または重み付け変数として選択する最良の方法です。