回答:
Ching、1と0に関してデータセットのバランスをとる必要はありません。必要なのは、最大尤度が収束するのに十分な1の数だけです。データセットの1(100,000)の分布を見ると、問題はないはずです。ここで簡単な実験を行うことができます
どちらの場合も、同じ見積もりが得られます。繰り返しますが、重み付けの考え方はサンプリングに関連しています。データセット全体を使用している場合は、重み付けしないでください。私があなたなら、1の場合は10%、0の場合は10%を使用します。
Rでは、を使用しますglm
。サンプルコードを次に示します。
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
データセットにはwt
、重みの変数が必要です。
0と1の両方の10%を使用すると、wt
変数の値は10になります。
0の10%と1の100%を使用する場合:wt
変数の値は、y = 0の観測では10、y = 1の観測では1になります
重み付けは、サンプルと母集団の違いを補正するためにデータに重み付けする手順です(King 2001)。たとえば、まれなイベント(信用リスクの詐欺、医学文献の死亡など)では、すべての1(まれなイベント)と一部の0(非イベント)をサンプリングする傾向があります。そのような場合、それに応じて観測値に重みを付ける必要があります。
例:人口50万件のトランザクションには50件の不正取引があります。この場合、あなたは
この場合、不正取引には1の重みを割り当て、良好な取引には10の重みを割り当てます。これは、加重最尤法と呼ばれます。重要なポイントは、重み付けがサンプリングの割合に関連していることです
参照:レアイベントデータのロジスティック回帰(King 2001)