統計とビッグデータ case-control-study

1

非常にまれな陽性クラスのデータセットがあり、陰性クラスをダウンサンプリングし、ロジスティック回帰を実行する場合、陽性クラスの有病率を変更したという事実を反映するように回帰係数を調整する必要がありますか？たとえば、Y、A、B、Cの4つの変数を持つデータセットがあるとします。Y、A、Bはバイナリで、Cは連続です。11,100個の観測値Y = 0および900 Y = 1の場合： set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) A、B、Cが与えられた場合、Yを予測するためにロジスティック回帰を近似します。 dat1 <- data.frame(Y, …

34 logistic unbalanced-classes case-control-study

1

結果変数がケース/コントロールステータスでない場合のケース-コントロール設計におけるロジスティック回帰係数の推定

サイズの母集団からデータをサンプリング検討NNN以下のように：についてはk=1,...,Nk=1,...,Nk=1, ..., N 個々のkkkの「疾患」状態を観察する彼らが疾患を持っている場合、確率p k 1でサンプルに含めますpk1pk1p_{k1} それらが病気にかかっていない場合は、確率それらを含めますpk0pk0p_{k0}。あなたがバイナリ結果変数観測仮定YiYiY_iとの予測ベクトルXiXi{\bf X}_iのために、i=1,...,ni=1,...,ni=1, ..., n人の被験者がこの方法でサンプリングしました。結果変数は「疾患」ステータスではありません。ロジスティック回帰モデルのパラメーターを推定したい： log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβlog⁡(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} 私が気にしているのは、（ログ）オッズ比です。切片は私には関係ありません。ββ{\boldsymbol \beta} 私の質問は、サンプリング確率、を無視して、あたかもモデルをあてはめることで、賢明な推定を取得できますかそれは普通のランダムなサンプルでしたか？ββ{\boldsymbol \beta}{pi1,pi0}{pi1,pi0}\{ p_{i1}, p_{i0} \}i=1,...,ni=1,...,ni=1, ..., n この質問に対する答えは「はい」です。私が探しているのは、これを検証するリファレンスです。答えに確信がある主な理由は2つあります。 …

10 logistic case-control-study

2

ケースコントロール研究における最適なケース/コントロール比

ケースコントロール研究における最適なケース/コントロール比は何ですか？なぜほとんどの教科書やモノグラフはそれが1を超えると示唆しているのですか？1未満にできますか（欠点は何ですか？）？ありがとうございました。

10 case-control-study

1

メタアナリシスを伴うフリークエンティストアプローチとベイジアンアプローチの違いは何ですか？

特定の健康指標を調べて分析しているとしましょう。患者と対照の測定値の違い、およびその差が0と異なるかどうかに興味があります。過去に同じ研究課題と健康測定値を調べた研究がありましたが、患者のサンプルが異なっていました。ベイジアン分析では、平均差と標準誤差を組み込んだ以前の研究に基づいて、事前分布を作成します。ベイジアン統計を新しく学習しているため、これが初心者の質問である場合は許してください。ただし、ベイジアン分析の結果は、逆分散加重メタ分析を使用して得られる結果とどのように異なるのでしょうか。現在のデータを使用した以前の研究？

9 bayesian meta-analysis case-control-study

2

King and Zeng（2001）に記載されているまれなイベントの修正方法

バイナリ（生存）応答変数と3つの説明変数（A= 3レベル、B= 3レベル、C= 6レベル）のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてAはB、Cこのデータセットですでに調査しました。それらの効果は重要です。サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています（12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD）。第4変数についてさらに調査されました（）。ここに3つの問題があります。 KingとZeng（2001）で説明されているまれなイベントの修正を考慮して、およそ50％から50％が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません（データの90％はこれらのレベルの1つ、たとえばlevel内にありますD2）。 King and Zeng（2001）の論文と、King and Zeng（2001）の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf（私はRを使用）を注意深く読みました。King and Zheng（2001）から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました：以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100％であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。重み付け方法：w iを計算し、論文で理解したことから：「研究者が行う必要があるのは、式（8）でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました： glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial) 私は含めるべきであることを確認していないA、BとC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので（各カテゴリには50％の生死については含まれています）、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2（ほとんどの個人のレベル）によく適合しますが、他のレベルD（D2優勢）にはまったく適合しません。右上のグラフを参照してください。重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2 後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値（1を除く）とすべてのp値= 0（1を除く）を返します。質問： KingとZeng（2001）を正しく理解しましたか？（私はそれを理解するのにどれくらい遠いですか？）私にglmフィット、A、B、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか？タウの値と値を持っているという事実にもかかわらず、キングとゼンの（2001）の重み付け補正を適用できますか？ y¯y¯\bar yABCグローバル値の代わりに各カテゴリについて？ D変数のバランスが非常に悪いのは問題ですか？バランスが取れていない場合、どうすればそれを処理できますか？（考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか？）ありがとうございます！編集：モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのかわかりません。 …

8 logistic unbalanced-classes weighted-regression rare-events case-control-study

1

ロジスティックモデリングのコンテキストで「ケースコントロール」と「横断的」とはどういう意味ですか？

ロジスティックモデリングを研究しているときに、次のステートメントを読みましたケースコントロールまたは横断研究のロジスティックモデリングから、オッズ比のみが推定され、個々のリスクは推定されないという事実は驚くべきことではありません。「ケースコントロール」と「横断研究」が統計分析で何を表すのかわかりません。また、統計分析の観点から、上記の意味がよくわかりません。説明をいただければ幸いです。

8 logistic epidemiology odds-ratio case-control-study observational-study

タグ付けされた質問 「case-control-study」

タグ付けされた質問「case-control-study」