多変量バイナリ応答-回帰戦略に関するアドバイス


7

次の状況にどのように取り組むかについてアドバイスをいただければ幸いです:カウント変数Xと4つのバイナリ変数A、B、C、Dがあります。カウント変数は独立変数です(これは、小児期の有害な経験の数を指します)とバイナリは従属変数です(それらは成人期の特定の有害な結果を指します)。データセット内の回答者は、A、AC、BCDなどの結果の任意の組み合わせを持つことができます。カウント変数Xと結果のA、B、C、Dの間の関連の強さを測定します。他の結果。

これにどのように取り組むのが最善かわかりません。変数の役割を逆転させ、カウント変数Xを結果として、ADを予測子として扱うことは正当化されますか?したがって、これは負の二項回帰になります(過剰分散があります)。このようにして、XとA(B、C…)間の関連付けは、他のバイナリ変数を一定に保持して推定されます。しかし、私は、以前に起こったことと後で起こることを予測しているので、論理的にそれは危険だと思われます。

または、代わりにMANOVAを使用する必要があります(ただし、結果の解釈が簡単ではないことをどこかで読んだことがあります)。

または、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/で提案されているように、一般化された線形混合モデル(これまでに試したことがない)を使用する必要があります


3
この質問が寄せられたことをとても嬉しく思います。コミュニティからさまざまな回答が得られることを期待しています。最初に、続行したくない場合の例を紹介します。このブログ投稿は、構成要素の妥当性の問題に対抗できなかったこと、および理論上の純粋に関連性のある回帰分析に依存していたことが、フィールドでの研究論文の重要な再分析のストーリーを物語っています。
デビッドC.ノリス

3
あなたが本当に望んでいることには未定のようです。measure the strength of the association between the count variable X and the outcomes A, B, C, D conditional on the levels of the other outcomesその「条件付き」は、実際にはバイナリの結果が予測変数であることを示唆しています。predicting something that happened earlier with something that happened later私たちは「自然」ではなく分析の領域にいるので、問題ではありません。
ttnphns 2017

(続き)ただし、問題は、ランダムなエラーを配置する場所です-結果またはカウントXにあります。間隔推定またはパラメーターのp値を使用した回帰が必要な場合は、違いがあります。関連付け(条件付き/部分的を含む)のみを測定する必要がある場合-それは行いません。
ttnphns 2017

問題を「分割」する方が簡単ではありませんか。4つのモデルを使用して、独立変数Xと各結果間の関連付けを個別に測定します(例:ロジスティック回帰)。(他の「除外された」結果を条件として関連を測定するには、それらを予測子として含めることができます)
matteo

回答:


9

あなたは、すべての子供時代の出来事が成人の結果を予測する上で等しい重みを持っているという強い仮定をしています。しかし、それを考えると、続行するにはいくつかの可能な方法があります。主なアプローチは3つありますが、そのうちの1つはすでに説明しました。

  1. 4つのイベントの結果ステータスを考慮して、問題を逆向きにして、小児イベントの数を予測します。カウントに分布を課さないように、セミパラメトリックモデルを使用します。つまり、比例オッズの順序ロジスティックモデルです。この後方モデルのパラメータは解釈が困難ですが、関連の全体的なテストと関連の強さの全体的な測定は意味があります。XがYを予測する範囲は、Yが純粋に統計的な意味でXを予測する範囲と同じであるため、元の予測子が1つしかない場合(後方参照モデル)が役立ちます。
  2. 4つのバイナリ結果に対して完全な多変量モデルを使用します。この状況を処理する計量経済学のいくつかのモデルがあります。Greeneの本Econometric Analysisを参照してください。
  3. A、B、C、Dの階層順序を作成し、発生した4つのイベントの中で最悪のイベントを各人に割り当てます。セミパラメトリック序数応答モデルを使用して、この序数の結果を予測します。

サンプルサイズについては触れませんでしたが、問題になる可能性があります。共変量のない単純な単一の比率を推定するためだけに、少なくとも96の観測が必要です。


4
+1。フランク、Pt.2についてもう少しだけ話してもらえますか?つまり、特にバイナリ応答の多変量手順ですか?
ttnphns 2017

1

Frank Harrellが言及したGreeneの本で説明されているように、多変量プロビットモデルを検討することができます。(Lesaffre and Mohlenberghs、1991 Stat。Med 10、1391-1403)も参照してください。アイデアは、各イベントに対する傾向または許容範囲の多変量正規(4次元)分布を考えることです。多変量正規平均ベクトルは、独立変数の4つの関数としてモデル化します。プロビットリンク関数を介して平均ベクトルを与えられた各イベントの確率を推定します。

グーグルグリーンブック。あなたはいくつかの便利な「リンク」を見つけるでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.