バイナリ(生存)応答変数と3つの説明変数(A
= 3レベル、B
= 3レベル、C
= 6レベル)のデータセットがあります。このデータセットでは、データはバランスが取れており、ABC
カテゴリごとに100人の個人がいます。これらの、、および変数の影響についてA
はB
、C
このデータセットですでに調査しました。それらの効果は重要です。
サブセットがあります。各ABC
カテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています(12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD
)。第4変数についてさらに調査されました()。ここに3つの問題があります。
- KingとZeng(2001)で説明されているまれなイベントの修正を考慮して、およそ50%から50%が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。
- この0と1のランダムでないサンプリングは、個人が各
ABC
カテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。 - この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません(データの90%はこれらのレベルの1つ、たとえばlevel内にあります
D2
)。
King and Zeng(2001)の論文と、King and Zeng(2001)の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf
(私はRを使用)を注意深く読みました。King and Zheng(2001)から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました:
- 以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片は
A1B1C1
カテゴリであり、このカテゴリの生存率は100%であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。 重み付け方法:w iを計算し、論文で理解したことから:「研究者が行う必要があるのは、式(8)でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分
glm
を走らせました:glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
私は含めるべきであることを確認していない
A
、B
とC
私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので(各カテゴリには50%の生死については含まれています)、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2
(ほとんどの個人のレベル)によく適合しますが、他のレベルD
(D2
優勢)にはまったく適合しません。右上のグラフを参照してください。
重み付けされていない
glm
モデルとw iでglm
重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big dataset
ABC
Proportion in the sub dataset
ABC
Model predictions
glm
pch
D
D2
後にが表示されたときにのみlogistf
、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値(1を除く)とすべてのp値= 0(1を除く)を返します。
質問:
- KingとZeng(2001)を正しく理解しましたか?(私はそれを理解するのにどれくらい遠いですか?)
- 私に
glm
フィット、A
、B
、とC
有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABC
ということです。そうではありませんか? - タウの値と値を持っているという事実にもかかわらず、キングとゼンの(2001)の重み付け補正を適用できますか?
ABC
グローバル値の代わりに各カテゴリについて? D
変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか?)ありがとうございます!
編集:モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのかわかりません。
モデルの説明変数としてA、B、Cなしでフィット