二項回帰とモデリング戦略の議論


8

今日、私は二項/ロジスティック回帰について質問を受けました。これは、私の部門のグループが行ってコメントを求めている分析に基づいています。匿名性を保護するために以下の例を作成しましたが、彼らはその反応に熱心でした。

まず、分析は単純な1または0の二項応答(たとえば、ある繁殖シーズンから次の繁殖シーズンまでの生存率)で始まり、目標はこの応答をいくつかの共変量の関数としてモデル化することでした。

ただし、一部の共変量の複数の測定値は、一部の個人では利用可能でしたが、他の個人では利用できませんでした。たとえば、変数xが分娩中の代謝率の測定値であり、個体の子孫の数が異なると想像してください(変数xは、個体Aでは3回、個体Bでは1回だけ測定されました)。この不均衡は、研究者自身のサンプリング戦略によるものではなく、彼らがサンプリングしていた母集団の特徴を反映しています。一部の個体は他の個体より多くの子孫を持っています。

これらのイベントの間隔が非常に短いため、労働イベント間の2項の0 \ 1応答を測定することは不可能であったことも指摘しておきます。繰り返しになりますが、問題の種は繁殖期が短いが、シーズン中に複数の子孫を産むことができると想像してください。

研究者たちは、変数xの平均を1つの共変量として使用し、個人が出産した子孫の数を別の共変量として使用するモデルを実行することを選択しました。

今、私はいくつかの理由でこのアプローチに熱心ではありませんでした

1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。

2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。

3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。

それで、私の質問は、人々がこのタイプのデータをどのようにモデル化しようとするのでしょうか?

現時点では、おそらく、子孫が1人の個体と、子孫が2人の個体に対して別々のモデルを実行します。また、変数xの平均を使用せず、各出生の生データのみを使用しますが、これもはるかに良いと確信していません。

お時間をいただきありがとうございます

(PS:長い質問であることをお詫びします。例が明確であることを願っています)


彼らはあるシーズンから次のシーズンまでの生存に厳密に関心がありますか、それとも長期にわたる生存をモデル化することを好みますか?
Matt Parker

回答:


3

個々の測定ごとに1つの応答変数しかないので、少し困惑しているように聞こえます。私は最初にマルチレベルのアプローチを推奨するつもりでした。しかし、それが機能するためには、最低レベルでの応答を観察する必要があります-あなたはそうではありません-個々のレベル(MLMではレベル2)での応答を観察します

1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。

共変量xの変動性を失っていますが、これは、Xに含まれる他の情報が応答に関連している場合にのみ問題になります。Xの分散を共変量として配置することを妨げるものは何もありません。

2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。

統計は、観測されたデータの関数です。したがって、共変量はすべて「統計」です。だから、あなたはそれが好きかどうかに関わらず、すでに「統計に関する統計」をやっています。しかし、それはあなたが解釈すべき方法に違いを生む勾配係数を平均値としてがあり、個人の出生時の値ではありません。個々の出産を気にしない場合、これはほとんど問題になりません。その場合、このアプローチは誤解を招く可能性があります。

3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。

Xの平均値が機能的/決定論的に子孫の数に関連しているかどうかだけが問題になります。これが発生する可能性のある1つの方法は、Xの値が同じ出生数の各個人で同じである場合です。通常、これは当てはまりません。

Xの各値を共変量として含むモデルを指定できます。しかし、これはおそらく私が想像するあなたの側のいくつかの新しい方法論的研究を伴うでしょう。個人内の測定数が異なるため、尤度関数は個人ごとに異なります。この場合、マルチレベルモデリングが概念的に適用されるとは思いません。これは、出生が個人内のサブセットまたはサンプルではないためです。数学は同じかもしれませんが。

この構造を組み込むことができる1つの方法は、次のようなモデルを作成することです。

Yj|バツjBYj|jpj

Yjjバツjjpj

gpj=バツjTβ

gバツjj

L=Lβ=ΣjB[Σ=1Njlog[BYj|jg1バツjTβ]]

B

j

つまり、要約すると、何かが失われていると示唆したときに直感がわかります。ただし、「純度」の価格は高くなる可能性があります-特に見積もりを取得するために独自のアルゴリズムを記述する必要がある場合は特にそうです。


2

非線形混合モデルを探索できると思います。これにより、データを効果的に使用できるようになります。しかし、比較的少数の被験者が複数の測定値を持っている場合、それは重要ではなく、うまく機能しない可能性があります(収束の問題が発生する可能性があると思います)。

SASを使用している場合は、PROC GLIMMIXを使用できます。RIを使用している場合は、lme4が役立つと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.