今日、私は二項/ロジスティック回帰について質問を受けました。これは、私の部門のグループが行ってコメントを求めている分析に基づいています。匿名性を保護するために以下の例を作成しましたが、彼らはその反応に熱心でした。
まず、分析は単純な1または0の二項応答(たとえば、ある繁殖シーズンから次の繁殖シーズンまでの生存率)で始まり、目標はこの応答をいくつかの共変量の関数としてモデル化することでした。
ただし、一部の共変量の複数の測定値は、一部の個人では利用可能でしたが、他の個人では利用できませんでした。たとえば、変数xが分娩中の代謝率の測定値であり、個体の子孫の数が異なると想像してください(変数xは、個体Aでは3回、個体Bでは1回だけ測定されました)。この不均衡は、研究者自身のサンプリング戦略によるものではなく、彼らがサンプリングしていた母集団の特徴を反映しています。一部の個体は他の個体より多くの子孫を持っています。
これらのイベントの間隔が非常に短いため、労働イベント間の2項の0 \ 1応答を測定することは不可能であったことも指摘しておきます。繰り返しになりますが、問題の種は繁殖期が短いが、シーズン中に複数の子孫を産むことができると想像してください。
研究者たちは、変数xの平均を1つの共変量として使用し、個人が出産した子孫の数を別の共変量として使用するモデルを実行することを選択しました。
今、私はいくつかの理由でこのアプローチに熱心ではありませんでした
1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。
2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。
3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。
それで、私の質問は、人々がこのタイプのデータをどのようにモデル化しようとするのでしょうか?
現時点では、おそらく、子孫が1人の個体と、子孫が2人の個体に対して別々のモデルを実行します。また、変数xの平均を使用せず、各出生の生データのみを使用しますが、これもはるかに良いと確信していません。
お時間をいただきありがとうございます
(PS:長い質問であることをお詫びします。例が明確であることを願っています)