そのようなモデルの目標が予測である場合、非加重ロジスティック回帰を使用して結果を予測することはできません。リスクを過大予測します。ロジスティックモデルの強みは、オッズ比(OR)(リスクファクターとロジスティックモデルのバイナリ結果との関連性を測定する「勾配」)が、結果に依存するサンプリングに対して不変であることです。したがって、ケースがコントロールに対して10:1、5:1、1:1、5:1、10:1の比率でサンプリングされる場合、それは単に問題ではありません:サンプリングが無条件である限り、どちらのシナリオでもORは変わりません露出について(これはバークソンのバイアスをもたらします)。実際、完全に単純なランダムサンプリングが行われない場合、結果に依存するサンプリングはコスト削減の努力です。
ロジスティックモデルを使用した結果依存サンプリングからリスク予測が偏るのはなぜですか?結果依存サンプリングは、ロジスティックモデルのインターセプトに影響を与えます。これにより、母集団の単純なランダムサンプルのケースのサンプリングの対数オッズと擬似のケースのサンプリングの対数オッズの違いにより、S字型の関連曲線が「x軸を上にスライド」します。 -実験計画の人口。(コントロールに対して1:1のケースがある場合、この疑似母集団でケースをサンプリングする可能性は50%です)。まれな結果では、これは2倍または3倍の大きな差です。
そのようなモデルが「間違っている」と言うときは、目的が推論(右)であるか予測(間違っている)であるかに注目する必要があります。これは、結果とケースの比率にも対応しています。このトピックの周りでよく見かける言語は、そのような研究を「ケースコントロール」研究と呼ぶもので、これについては広く書かれています。おそらく、このトピックに関する私のお気に入りの出版物はBreslow and Dayであり、これは画期的な研究として、がんのまれな原因のリスク要因を特徴づけました(以前はイベントの希少性のために実行不可能でした)。症例対照研究は、所見の頻繁な誤解を取り巻くいくつかの論争を引き起こします:特にORとRR(所見を誇張する)を混同し、また、調査結果を高めるサンプルと母集団の媒介としての「研究基盤」も。それらの優れた批判を提供します。しかし、ケースコントロール研究が本質的に無効であると主張する批判はありません。どうすればいいのでしょうか?彼らは無数の道で公衆衛生を進歩させました。Miettenenの記事は、結果に応じたサンプリングで相対リスクモデルまたは他のモデルを使用し、ほとんどの場合、結果と母集団レベルの結果の間の不一致を説明することさえできることを指摘するのが得意です:ORは通常難しいパラメーターであるため、実際には悪くはありません解釈する。
おそらく、リスク予測のオーバーサンプリングバイアスを克服するための最良かつ最も簡単な方法は、加重尤度を使用することです。
スコットとワイルドは重みについて議論し、それが切片項とモデルのリスク予測を修正することを示します。これは、母集団内の症例の割合について先験的な知識がある場合に最適なアプローチです。結果の有病率が実際に1:100であり、1対1の方法でケースをコントロールにサンプリングする場合は、コントロールを100の重みで単純に重み付けして、母集団の一貫したパラメーターと公平なリスク予測を取得します。この方法の欠点は、他の場所でエラーが推定された場合、人口の有病率の不確実性を考慮していないことです。これは、オープンリサーチの大きな領域であり、LumleyとBreslow2フェーズサンプリングと二重ロバスト推定量に関するいくつかの理論がありました。非常に興味深いものだと思います。Zeligのプログラムは、単純に重み機能の実装のようです(Rのglm関数が重みを許可するため、少し冗長に見えます)。