交差する変量効果と不均衡データ


10

2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのか​​わかりません。

私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント(約5〜500)に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。

クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。

最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは(パッケージlme4を使用)、次のように指定されたモデルがあります。

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。

また、一部のクライアントとプロバイダーはイベントが非常に少ない(10未満)一方で、多くのイベント(最大500)があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます(信頼区間という用語はここでは完全に正しくないと思います)。

データのバランスが取れていないため、交差したランダム効果は問題になりますか?もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか?

回答:


4

不均衡なデータに関しては、glmerは不均衡なグループを処理できます。これは、バランスの取れた設計に制限される反復測定ANOVAと比較して、実際に混合モデルアプローチを開発するポイントでした。それは残差分散の推定を向上させるよう、いくつかのイベントを持つクライアントまたはプロバイダを含む、(1つでも)は、それらを省略することよりも、さらに良好である(参照マーティン 2011)。

BLUP(ranef(model))をスキルのプロキシとして使用する場合は、実際にポイント予測の不確実性を推定する必要があります。これはranef(model, postVar=TRUE)、ベイジアンフレームワークの事後分布を使用して、またはそれを介して、頻度主義フレームワークで実行できます。ただし、さらに回帰モデルにおける応答変数としてBLUPsを使用しないでください。参照ハドフィールドら。(2010) BLUPの誤用の例と、それらの不確実性を適切に考慮するためのさまざまな方法。

クライアントとプロバイダー間のスキルの相関関係に関しては、この不均衡が非常に強い場合、各ランダム効果による分散を正しく推定することができなくなるため、問題になる可能性があります。ランダムなインターセプト間の相関を簡単に処理できる混合モデルフレームワークはないようです(問題の正式な表現については、こちらを参照てください)。クライアントとプロバイダーの平均的な成功はどの程度相関しているのでしょうか。


私の古い質問の1つに取り組むために本当にありがとう。答えは依然として関連性があり、ガイダンスとリファレンスは高く評価されています。申し訳ありませんが、そこにあることに気づくのにとても時間がかかりました。解決済みとマークしました。
colonel.triq 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.