2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのかわかりません。
私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント(約5〜500)に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。
クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。
最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは(パッケージlme4を使用)、次のように指定されたモデルがあります。
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。
また、一部のクライアントとプロバイダーはイベントが非常に少ない(10未満)一方で、多くのイベント(最大500)があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます(信頼区間という用語はここでは完全に正しくないと思います)。
データのバランスが取れていないため、交差したランダム効果は問題になりますか?もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか?