ロジスティック回帰のサンプリングは、1と0の実際の比率を反映すべきですか？

樹木の特性（feの高さ）に基づいて、樹木に生息するいくつかの動物種の発生確率を推定できるロジスティック回帰モデルを作成するとします。いつものように、私の時間とお金は限られているため、限られたサンプルサイズのみを収集することができます。

次の質問があります： サンプルの1と0の比率は、1と0の真の比率を反映すべきですか？（少なくともおよそ）バランスのとれたサンプル（1と0の等しい数）でロジスティック回帰モデルを実行するのが一般的な方法であることに気付きました-しかし、そのようなモデルはシュールに高い発生確率を与えます-そうですか？

** 1と0の真の比率を反映しないモデルが「間違っている」という概念をサポートするために使用できる記事/教科書はありますか？**

最後に、1：1サンプリングを実行し、その後、今井らによるとタウでモデルを修正することは可能ですか？2007年？

今井浩介、ゲイリー・キング、オリビア・ラウ。2007.「relogit：Rare Events Logistic Regression for Dichotomous Dependent Variables」、今井幸介、Gary King、およびOlivia Lau、「Zelig：Everyone's Statistical Software」、http：//gking.harvard.edu/zelig。

ドットは木を表します（赤=占有、灰色=占有なし）。占領されたすべての樹木を100％の精度（1）で識別できますが、森林内のすべての木を測定することはできません。モデルは、サンプリング戦略（比率）ごとに異なります。

logistic sampling

— ラディスラフ・ナオ
ソース

そのようなモデルの目標が予測である場合、非加重ロジスティック回帰を使用して結果を予測することはできません。リスクを過大予測します。ロジスティックモデルの強みは、オッズ比（OR）（リスクファクターとロジスティックモデルのバイナリ結果との関連性を測定する「勾配」）が、結果に依存するサンプリングに対して不変であることです。したがって、ケースがコントロールに対して10：1、5：1、1：1、5：1、10：1の比率でサンプリングされる場合、それは単に問題ではありません：サンプリングが無条件である限り、どちらのシナリオでもORは変わりません露出について（これはバークソンのバイアスをもたらします）。実際、完全に単純なランダムサンプリングが行われない場合、結果に依存するサンプリングはコスト削減の努力です。

ロジスティックモデルを使用した結果依存サンプリングからリスク予測が偏るのはなぜですか？結果依存サンプリングは、ロジスティックモデルのインターセプトに影響を与えます。これにより、母集団の単純なランダムサンプルのケースのサンプリングの対数オッズと擬似のケースのサンプリングの対数オッズの違いにより、S字型の関連曲線が「x軸を上にスライド」します。 -実験計画の人口。（コントロールに対して1：1のケースがある場合、この疑似母集団でケースをサンプリングする可能性は50％です）。まれな結果では、これは2倍または3倍の大きな差です。

そのようなモデルが「間違っている」と言うときは、目的が推論（右）であるか予測（間違っている）であるかに注目する必要があります。これは、結果とケースの比率にも対応しています。このトピックの周りでよく見かける言語は、そのような研究を「ケースコントロール」研究と呼ぶもので、これについては広く書かれています。おそらく、このトピックに関する私のお気に入りの出版物はBreslow and Dayであり、これは画期的な研究として、がんのまれな原因のリスク要因を特徴づけました（以前はイベントの希少性のために実行不可能でした）。症例対照研究は、所見の頻繁な誤解を取り巻くいくつかの論争を引き起こします：特にORとRR（所見を誇張する）を混同し、また、調査結果を高めるサンプルと母集団の媒介としての「研究基盤」も。それらの優れた批判を提供します。しかし、ケースコントロール研究が本質的に無効であると主張する批判はありません。どうすればいいのでしょうか？彼らは無数の道で公衆衛生を進歩させました。Miettenenの記事は、結果に応じたサンプリングで相対リスクモデルまたは他のモデルを使用し、ほとんどの場合、結果と母集団レベルの結果の間の不一致を説明することさえできることを指摘するのが得意です：ORは通常難しいパラメーターであるため、実際には悪くはありません解釈する。

おそらく、リスク予測のオーバーサンプリングバイアスを克服するための最良かつ最も簡単な方法は、加重尤度を使用することです。スコットとワイルドは重みについて議論し、それが切片項とモデルのリスク予測を修正することを示します。これは、母集団内の症例の割合について先験的な知識がある場合に最適なアプローチです。結果の有病率が実際に1：100であり、1対1の方法でケースをコントロールにサンプリングする場合は、コントロールを100の重みで単純に重み付けして、母集団の一貫したパラメーターと公平なリスク予測を取得します。この方法の欠点は、他の場所でエラーが推定された場合、人口の有病率の不確実性を考慮していないことです。これは、オープンリサーチの大きな領域であり、LumleyとBreslow2フェーズサンプリングと二重ロバスト推定量に関するいくつかの理論がありました。非常に興味深いものだと思います。Zeligのプログラムは、単純に重み機能の実装のようです（Rのglm関数が重みを許可するため、少し冗長に見えます）。

— AdamO
ソース

（+1）事前の修正は、単純なケースコントロールサンプリングのインターセプトを調整する最も簡単な方法として間違いなく言及する価値がありますか？

— Scortchi -復活モニカ

@Scortchiインターセプトの事前情報が有益なベイジアンロジスティック回帰を意味しますか？または制約付きの最適化？私は実際にそれが何であるかについてよく知らない。

— AdamO

ここだけの簡単な計算：stats.stackexchange.com/a/68726/17230。（その用語をどこで取り上げたのか、それがどれほど標準的であるのか、今はよくわかりません。）誤って指定されたモデルの方が重みがうまくいくと聞きました。

— Scortchi -復活モニカ

@Scortchiああ、それはかなり簡単だろう！誤差の推定値が必要ない限り、予測には問題ありません。重み付けにより、切片と勾配に対して異なるSEが得られますが、この方法はどちらにも影響しません。

— AdamO