我々が持っていると仮定共変量、バイナリ結果変数の。これらの共変量のいくつかは、複数のレベルを持つカテゴリーです。その他は連続的です。「最適な」モデルをどのように選択しますか?言い換えれば、モデルに含める共変量をどのように選択しますか?
単純なロジスティック回帰を使用して、共変量のそれぞれでを個別にモデル化し、有意な関連性を持つ回帰を選択しますか?
我々が持っていると仮定共変量、バイナリ結果変数の。これらの共変量のいくつかは、複数のレベルを持つカテゴリーです。その他は連続的です。「最適な」モデルをどのように選択しますか?言い換えれば、モデルに含める共変量をどのように選択しますか?
単純なロジスティック回帰を使用して、共変量のそれぞれでを個別にモデル化し、有意な関連性を持つ回帰を選択しますか?
回答:
これはおそらく良いことではありません。最初にすべての個々の共変量を見てから、重要な共変量を使用してモデルを構築することは、論理的に自動検索手順と同等です。このアプローチは直感的ですが、この手順から行われた推論は無効です(たとえば、真のp値はソフトウェアによって報告されたものとは異なります)。問題は、共変量の初期セットのサイズが大きいほど大きくなります。とにかくこれを行うと(そして、残念なことに、多くの人が行います)、結果のモデルを真剣に考えることはできません。代わりに、完全に新しいスタディを実行して、独立したサンプルを収集し、以前のモデルを適合させてテストする必要があります。ただし、これには多くのリソースが必要です。さらに、プロセスに欠陥があり、以前のモデルはおそらく貧弱なものなので、多くのリソースを無駄にします。
より良い方法は、あなたにとって実質的に興味のあるモデルを評価することです。次に、モデルの柔軟性を損なう情報基準(AICなど)を使用して、それらのモデル間で判断します。ロジスティック回帰の場合、AICは次のとおりです
ここで、はそのモデルに含まれる共変量の数です。すべてが等しい、AICの最小値を持つモデルが必要です。ただし、必ずしもそれほど単純ではありません。いくつかのモデルのAICの値が類似している場合、たとえ1つが最も低い場合でも注意してください。
異なるソフトウェアが異なる情報を出力するため、AICの完全な式をここに含めます。可能性だけから計算する必要がある場合もあれば、最終的なAICまたはその中間のものを取得する場合もあります。
回帰モデルに含める変数を選択する方法は多数ありますが、適切なもの、悪いもの、ひどいものがあります。サンダーグリーンランドの出版物を簡単に参照できますが、その多くは変数の選択に関するものです。
ただし、一般的に言えば、いくつかの一般的な「ルール」があります。