簡単な答えは、データに正のクラス内相関がある場合にのみ、あなたの推測は真実であるということです。経験的に言えば、ほとんどのクラスター化されたデータセットは、ほとんどの場合、クラス内相関が正であることを示します。つまり、実際には、通常、推測は真実です。ただし、クラス内相関が0の場合、言及した2つのケースは等しく有益です。また、クラス内相関が負の場合、実際にはより多くの被験者でより少ない測定を行うことはあまり有益ではありません。(パラメータ推定値の分散を減らすことに関する限り)単一の被験者ですべての測定を行うことを実際に好むでしょう。
統計的には、これについて考えることができる2つの視点があります。質問で言及した変量効果(または混合)モデル、またはここで少し情報が得られる限界モデルです。
ランダム効果(混合)モデル
被験者のセットから、それぞれ測定値を取得したとします。次に、番目の被験者
からの番目の測定の単純な変量効果モデルは、
ここで、は固定切片で、はランダムな被験者効果です(分散)、は観測レベルの誤差項(分散)であり、後者の2つのランダムな項は独立しています。m個のJ I 、Y I 、J = β + U I + E 、I 、J、β U I σ 2 、U、E 、I 、J σ 2 Enmj私
y私はj= β+あなた私+ e私はj、
βあなたは私σ2あなたはe私はjσ2e
このモデルでは、は母平均を表し、バランスの取れたデータセット(つまり、各被験者からの測定値が同じ数)を使用して、最良の推定値は単純にサンプル平均です。したがって、この推定値の分散が小さいことを意味する「詳細情報」を取得する場合、基本的に、サンプル平均の分散がおよびどのように依存するかを知りたいと思います。少し代数を使えば、
nはM VAR (1βnm
var (1n m∑私∑jy私はj)= var (1n m∑私∑jβ+あなた私+ e私はj)= 1n2m2var (∑私∑jあなたは私+ ∑私∑je私はj)= 1n2m2( m2∑私var (u私)+ ∑私∑jvar (e私はj))= 1n2m2(n m2σ2あなたは+ N M σ2e)= σ2あなたはn+ σ2en m。
この式を調べる
と、サブジェクトの分散(つまり)
がある
ときはいつでも、サブジェクトの数()を増やすとこれらの項の両方が小さくなり、数が増えることが被験者ごとの測定値(
σ2あなたは> 0nm)は、2番目の用語のみを小さくします。(マルチサイト複製プロジェクトを設計するためのこれの実際的な意味について
は、少し前に書いたこのブログ投稿を参照してください。)
ここで、観測の総数を一定に保ちながらまたはを増減するとどうなるかを知りたいと思います。そのため、を定数と見なし、分散式全体がように見えるようにし
これは、が可能(最大まで、この場合、各被験者から単一の測定を行うことを意味します)。mnn m
σ2あなたはn+ 定数、
nn = n mm = 1
私の短い答えはクラス内相関について言及しましたが、それはどこに当てはまりますか?この単純な変量効果モデルでは、クラス内相関は
(ここから派生したスケッチ)です。したがって、上記の分散方程式を
これは実際には何も追加しませんすでに上で見たものへの洞察、しかし、それは私たちに不思議にさせます:クラス内相関は真正の相関係数であり、相関係数は負になる可能性があるので、クラス内の場合に何が起こるか(そしてそれが何を意味するか)相関は負でしたか?
ρ = σ2あなたはσ2あなたは+ σ2e
var (1n m∑私∑jy私はj)= σ2あなたはn+ σ2en m= ( ρn+ 1 - ρn m)(σ2あなたは+ σ2e)
変量効果モデルのコンテキストでは、サブジェクトの分散が何らかの形で負であることを意味するため、クラス内の負の相関は実際には意味がありません(上記の方程式からわかるように、こことここで説明されているように)...しかし、分散は負になることはできません!しかし、これは、負のクラス内相関の概念が意味をなさないという意味ではありません。それは、変量効果モデルがこの概念を表現する方法を持っていないことを意味します。これは、概念ではなくモデルの失敗です。この概念を適切に表現するには、限界モデルを考慮する必要があります。σ2あなたはρ
限界モデル
この同じデータセットに対して、、
いわゆる限界モデルを考慮することができ
ここでは、基本的にランダムな被験者効果を前からエラー項なので、ます。ランダム効果で、我々は2つのランダムな用語とみなさモデルとすべきIIDが、しかし限界モデルにおいて、我々は代わりに検討追従するブロックを対角共分散行列のような
y私はj
y私はj= β+ e∗私はj、
あなたは私e私はje∗私はj=あなた私+ e私はjあなたは私e私はje∗私はjCC = σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥、R = ⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
言葉で言えば、これは限界モデルの下で単には、同じ被験者からの2つのの間の予想される相関関係です(被験者間の相関関係は0であると仮定します)。とき
ρe∗ρが正の場合、同じ被験者から抽出された2つの観測値は、被験者によるクラスタリングを無視してデータセットからランダムに抽出された2つの観測値よりも、平均的に似ている傾向があります。が
負の場合、同じ被験者から描画された2つの観測値は、完全にランダムに描画された2つの観測値よりも、平均的に類似度が
低い(離れている)傾向があります。(この解釈の詳細については
、こちらの質問/回答をご覧ください。)
ρ
したがって、限界モデルの下のサンプル平均の分散の方程式を見ると、
これは、上記でランダム効果モデルについて導出したものと同じ分散式で、、これは上記のメモと一致しています
var (1n m∑私∑jy私はj)= var (1n m∑私∑jβ+ e∗私はj)= 1n2m2var (∑私∑je∗私はj)= 1n2m2( N( Mσ2+ (m2- M )ρ σ2))= σ2( 1+(m−1)ρ)n m= ( ρn+ 1 - ρn m) σ2、
σ2e+ σ2あなたは= σ2e∗私はj=あなた私+ e私はj。この(統計的に同等の)視点の利点は、ここでは、負の主題分散などの奇妙な概念を呼び出す必要なく、負のクラス内相関について考えることができることです。負のクラス内相関は、このフレームワークに自然に適合します。
(ところで、上記の派生の最後から2番目の行は、を持たなければならないことを意味することを指摘するだけです。さもなければ、方程式全体が負ですが、分散負の値にはできません!したがって、クラスター内の測定数に依存するクラス内相関には下限があります(つまり、各被験者を2回測定する)の場合、クラス内相関は至るまで、場合は、のみ下がることができます。ρ ≥ - 1 /(M - 1 )m = 2ρ = − 1m = 3ρ = - 1 / 2
したがって、最後に、観測合計数を定数と再度考えると、上記の派生の最後から2番目の行はように見えることがわかります。
したがって、場合、をできるだけ小さくすると(より多くの被験者の測定値が少なくなります-制限内で、各被験者の1回の測定)、推定値の分散が可能な限り小さくなります。しかし、場合、分散をできるだけ小さくするために、実際にはを可能な限り大きくする必要があります(そのため、限界では、すべての測定を単一の被験者から取得します)。そしていつ( 1 + (m − 1 )ρ ) × 正の定数。ρ > 0 、M ρ < 0 、M 、N 、M ρ = 0 、M nはn m
( 1+(m−1)ρ) ×正の定数。
ρ>0mρ<0mnmρ=0、推定値の分散は単なる定数であるため、と割り当ては重要ではありません。
mn