King and Zeng(2001)に記載されているまれなイベントの修正方法


8

バイナリ(生存)応答変数と3つの説明変数(A= 3レベル、B= 3レベル、C= 6レベル)のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてABCこのデータセットですでに調査しました。それらの効果は重要です。

サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています(12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD)。第4変数についてさらに調査されました()。ここに3つの問題があります。

  1. KingとZeng(2001)で説明されているまれなイベントの修正を考慮して、およそ50%から50%が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。
  2. この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。
  3. この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません(データの90%はこれらのレベルの1つ、たとえばlevel内にありますD2)。

King and Zeng(2001)の論文と、King and Zeng(2001)の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf(私はRを使用)を注意深く読みました。King and Zheng(2001)から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました:

  • 以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100%であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。
  • 重み付け方法:w iを計算し、論文で理解したことから:「研究者が行う必要があるのは、式(8)でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました:

    glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
    

    私は含めるべきであることを確認していないABC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので(各カテゴリには50%の生死については含まれています)、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2(ほとんどの個人のレベル)によく適合しますが、他のレベルDD2優勢)にはまったく適合しません。右上のグラフを参照してください。

合う 重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2

後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値(1を除く)とすべてのp値= 0(1を除く)を返します。

質問:

  • KingとZeng(2001)を正しく理解しましたか?(私はそれを理解するのにどれくらい遠いですか?)
  • 私にglmフィット、AB、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか?
  • タウの値と値を持っているという事実にもかかわらず、キングとゼンの(2001)の重み付け補正を適用できますか? y¯ABCグローバル値の代わりに各カテゴリについて?
  • D変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか?)ありがとうございます!

編集:モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのか​​わかりません。

はめあい2 モデルの説明変数としてA、B、Cなしでフィット

回答:


2

このlogistf() 関数はrelogit() 、CRANでZeligパッケージの関数によって実行されるまれなイベントロジスティック回帰を実装していません。あなたはそれをテストするべきです!


さて、私は見て、relogit()を使用することはできません。なぜなら、私が言ったように、ABCカテゴリごとに、グローバル値の代わりにtauの値があり、この関数では、タウと私のデータセットと同じ長さ。関数の記述方法について私が理解したことから、正しいことは正しいと思います(より高度なバイアス補正部分を作成しなかった場合を除いて...)。
Aurelie、2014

2

ビッグデータではABCカテゴリの比率を計算できるため、最初のグラフの右上隅にある適合率と実際の比率の比較は、モデルの適合性を評価するための最良の方法ではないことに気付きました。 4つの変数すべてが含まれ、割合はABCDカテゴリごとに予測されます。

新しいデータをサブデータに適合させ、Dを削除しました。

glm(R~A+B+C, family=binomial, data=subdata)

このモデルの予測をサブデータセットで適合させ、大きなデータセットの実際の比率を比較し、私の重み付けが期待どおりに機能するかどうかを評価できるようにします。

結果は次のとおりです。

はめあい3 大きなデータセットの比率に対する新しいモデルの予測。

正解は「はい」です。

したがって、これは私の質問に答えました1(King and Zheng(2001)、少なくとも重み付け方法を正しく理解しています)および3(King and Zheng(2001)の重み付け補正を適用できますが、 τ との値 y¯ グローバル値の代わりにABCカテゴリごとに)。

他の2つの質問は:

  • A、B、Cをモデルに含めて適切に適合させることがなぜそれほど重要であり、その効果が重要であるのか。私が提案したように、サブセットで0と1の半分/半分の比率から多くのデパースを行い、異なるABCカテゴリでは異なるようになっているという事実によるものですか?

    ->すべてのABCカテゴリに0と1の観測値の約半分が含まれている必要があるため、モデルにA + B + Cを含めても効果はないはずだと私は予想しています。 2つの左上隅のグラフィックス、それらの間に大きな違いはありません...それでも、BとCはこの非加重線形モデルに大きな影響を与えます。これは、50からの逸脱が原因です。 / 50)、ただし必ずしも重み付き線形モデルではありません。

  • D変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(「2つの重み付け」、つまり重み付けを行うことは可能ですか?)

    -> 'car'ライブラリのAnova関数をロジスティック回帰(を指定'test.statistic="LR"')に使用することを考えています。その場合、関数はセルを直接重み付けしてタイプII SSを作成するので'weight'、まれなイベントの修正オプションを保持できます。


私は、LRテストで自動車ライブラリのAnova関数を使用することが適応されていないことを示唆するこのCV質問を見たところです。私はこのCVリンクを注意深く読んで答えを見つけます。
Aurelie、2014年

テストの重み付けされたモデルが有意性を評価する方法を含んでいるように見えるので、「logistf」関数をより深く調査しました。「logistf」関数で取得する係数は、「glm」で取得する係数に非常に近いです(奇数の比率に変換してプロットすると、ax = yの線が表示されます)。
Aurelie、2014年

したがって、「logistf」予測とフィット値を取得する方法はありません。「logistf」フィット値のプロットは、最後に提供したプロットのようになります(フィットは良好です)。
Aurelie、2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.