5人の被験者の100個の測定値が、100人の被験者の5個の測定値よりもはるかに少ない情報を提供することを示す


21

会議で、私は次の声明を耳にしました。

5人の被験者の100の測定値は、100人の被験者の5つの測定値よりもはるかに少ない情報を提供します。

これが本当であることは明らかですが、数学的にどのように証明できるのか疑問に思っていました...線形混合モデルを使用できると思います。ただし、それらの推定に使用される数学についてはあまり知りません(lmer4LMMおよびGLMMで実行するだけbmrsです)。これが真実である例を教えてください。Rの一部のコードよりも、いくつかの式を使用した回答を希望します。たとえば、正規分布のランダムインターセプトとスロープを持つ線形混合モデルなど、簡単な設定を想定してください。

PS LMMを含まない数学ベースの回答も大丈夫でしょう。LMMは、より多くの被験者からのより少ない測定値が少数の被験者からのより多くの測定値よりも優れている理由を説明するための自然なツールのように思えたため、LMMについて考えました。


3
+1。私は最も簡単な設定は、平均人口を推定する作業を検討するだろうと思います各被験者は平均、自分の持っていると、このテーマの各測定値は以下のように分布している。人の被験者のそれぞれから測定値を取得する場合、一定の積与えられた場合にとを設定する最適な方法は何。Nμ σ 2 AxはNσ 2nは、M N 、M 、N 、M = NμaN(μ,σa2)xN(a,σ2)nmnmnm=N
アメーバは、モニカを復活させる

取得データポイントのサンプル平均の分散を最小化するという意味での「最適」。N
アメーバは、モニカを復活させる

1
はい。しかし、あなたの質問については、分散を推定する方法を気にする必要はありません。あなたの質問(つまり、あなたの質問の引用)は、グローバル平均推定についてのみ信じており、サンプル内のすべてのポイントの最大平均によって最良の推定量が与えられることは明らかです。質問は次のとおりです:、、、および与えられた場合、分散は何ですか?それがわかっていれば、制約が与えられた場合、に関して最小化することができます。ˉ X N = N M μ σ 2 σ 2 A N M ˉ X N 、N 、M = Nμx¯N=nmμσ2σa2nmx¯nnm=N
アメーバは、モニカを復活させる

1
私はそれをどのように導き出すか分からないが、それは明らかだと思うことに同意する:誤差分散を推定するためには、単一の被験者からすべての測定値を持つことが最善であろう。また、被験者の分散を推定するには、(おそらく?)それぞれ1つの測定値を持つ異なる被験者を用意するのが最善でしょう。しかし、平均についてはそれほど明確ではありませんが、私の直感では、それぞれ1回の測定で人の被験者がいるのがベストだと教えてくれます。それが本当かしら...N NNNN
アメーバは回復モニカ言う

2
サンプルごとの被験者平均の分散はである必要があります。最初の項は被験者の分散で、2番目は各被験者の平均の推定値の分散です。すると、被験者の平均の分散(つまり総平均)はときに最小化されます。σ 2 A + σ 2 / N / M = σ 2 A / M + σ 2 /N 、M = σ 2 A / M + σ 2 / N = σ 2 / m + c o n s tm = Nσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
アメーバは

回答:


25

簡単な答えは、データにのクラス内相関がある場合にのみあなたの推測は真実であるということです。経験的に言えば、ほとんどのクラスター化されたデータセットは、ほとんどの場合、クラス内相関が正であることを示します。つまり、実際には、通常、推測は真実です。ただし、クラス内相関が0の場合、言及した2つのケースは等しく有益です。また、クラス内相関が負の場合、実際にはより多くの被験者でより少ない測定を行うことはあまり有益ではありません。(パラメータ推定値の分散を減らすことに関する限り)単一の被験者ですべての測定を行うことを実際に好むでしょう。

統計的には、これについて考えることができる2つの視点があります。質問で言及した変量効果(または混合モデル、またはここで少し情報が得られる限界モデルです。

ランダム効果(混合)モデル

被験者のセットから、それぞれ測定値を取得したとします。次に、番目の被験者 からの番目の測定の単純な変量効果モデルは、 ここで、は固定切片で、はランダムな被験者効果です(分散)、は観測レベルの誤差項(分散)であり、後者の2つのランダムな項は独立しています。m個のJ I 、Y I 、J = β + U I + E 、I 、Jβ U I σ 2 、U、E 、I 、J σ 2 Enmji

yij=β+ui+eij,
βuiσu2eijσe2

このモデルでは、は母平均を表し、バランスの取れたデータセット(つまり、各被験者からの測定値が同じ数)を使用して、最良の推定値は単純にサンプル平均です。したがって、この推定値の分散が小さいことを意味する「詳細情報」を取得する場合、基本的に、サンプル平均の分散がおよびどのように依存するかを知りたいと思います。少し代数を使えば、 nはM VAR 1βnm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
この式を調べると、サブジェクトの分散(つまり)あるときはいつでも、サブジェクトの数()を増やすとこれらの項の両方が小さくなり、数が増えることが被験者ごとの測定値(σu2>0nm)は、2番目の用語のみを小さくします。(マルチサイト複製プロジェクトを設計するためのこれの実際的な意味については、少し前に書いたこのブログ投稿を参照してください。)

ここで、観測の総数を一定に保ちながらまたはを増減するとどうなるかを知りたいと思います。そのため、を定数と見なし、分散式全体がように見えるようにし これは、が可能(最大まで、この場合、各被験者から単一の測定を行うことを意味します)。mnnm

σu2n+constant,
nn=nmm=1

私の短い答えはクラス内相関について言及しましたが、それはどこに当てはまりますか?この単純な変量効果モデルでは、クラス内相関は (ここから派生しスケッチ)です。したがって、上記の分散方程式を これは実際には何も追加しませんすでに上で見たものへの洞察、しかし、それは私たちに不思議にさせます:クラス内相関は真正の相関係数であり、相関係数は負になる可能性があるので、クラス内の場合に何が起こるか(そしてそれが何を意味するか)相関は負でしたか?

ρ=σu2σu2+σe2
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

変量効果モデルのコンテキストでは、サブジェクトの分散が何らかの形で負であることを意味するため、クラス内の負の相関は実際には意味がありません(上記の方程式からわかるように、ここここで説明さいるように)...しかし、分散は負になることはできません!しかし、これ、負のクラス内相関の概念が意味をなさないという意味ではありません。それは、変量効果モデルがこの概念を表現する方法を持っていないことを意味します。これは、概念ではなくモデルの失敗です。この概念を適切に表現するには、限界モデルを考慮する必要があります。σu2ρ

限界モデル

この同じデータセットに対して、、 いわゆる限界モデルを考慮することができ ここでは、基本的にランダムな被験者効果を前からエラー項なので、ます。ランダム効果で、我々は2つのランダムな用語とみなさモデルとすべきIIDが、しかし限界モデルにおいて、我々は代わりに検討追従するブロックを対角共分散行列のような yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
言葉で言えば、これは限界モデルの下で単には、同じ被験者からの2つのの間の予想される相関関係です(被験者間の相関関係は0であると仮定します)。ときρeρが正の場合、同じ被験者から抽出された2つの観測値は、被験者によるクラスタリングを無視してデータセットからランダムに抽出された2つの観測値よりも、平均的に似ている傾向があります。が負の場合、同じ被験者から描画された2つの観測値は、完全にランダムに描画された2つの観測値よりも、平均的に類似度が低い(離れている)傾向があります。(この解釈の詳細については、こちらの質問/回答をご覧ください。)ρ

したがって、限界モデルの下のサンプル平均の分散の方程式を見ると、 これは、上記でランダム効果モデルについて導出したものと同じ分散式で、、これは上記のメモと一致しています

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij。この(統計的に同等の)視点の利点は、ここでは、負の主題分散などの奇妙な概念を呼び出す必要なく、負のクラス内相関について考えることができることです。負のクラス内相関は、このフレームワークに自然に適合します。

(ところで、上記の派生の最後から2番目の行は、を持たなければならないことを意味することを指摘するだけです。さもなければ、方程式全体が負ですが、分散負の値にはできません!したがって、クラスター内の測定数に依存するクラス内相関には下限があります(つまり、各被験者を2回測定する)の場合、クラス内相関は至るまで、場合は、のみ下がることができます。ρ1/(m1)m=2ρ=1m=3ρ=1/2

したがって、最後に、観測合計数を定数と再度考えると、上記の派生の最後から2番目の行はように見えることがわかります。 したがって、場合、をできるだけ小さくすると(より多くの被験者の測定値が少なくなります-制限内で、各被験者の1回の測定)、推定値の分散が可能な限り小さくなります。しかし、場合、分散をできるだけ小さくするために、実際にはを可能な限り大きくする必要があります(そのため、限界では、すべての測定を単一の被験者から取得します)。そしていつ 1 + m 1 ρ × 正の定数ρ > 0 、M ρ < 0 、M 、N 、M ρ = 0 、M nはnm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0、推定値の分散は単なる定数であるため、と割り当ては重要ではありません。mn

3
+1。素晴らしい答え。についての2番目の部分は非常に直感的ではないことを認めなければなりません:膨大な(または無限の)合計数の観測でも、できることはすべての観測を1つの対象に割り当てることです。平均の標準誤差はあり、原則としてそれ以上減らすことはできません。これはとても奇妙です!真のは、それを測定するためにどのようなリソースを投入しても、不明のままです。この解釈は正しいですか?N M σ U βρ<0nmσuβ
アメーバは、モニカの復活を

3
ああ、いや。が無限大に増加すると、は負にとどまることができず、ゼロに近づく必要があります(被験者の分散ゼロに対応)ため、上記は正しくありません。うーん この負の相関関係はおもしろいことです。サンプルサイズによって制約されるため、実際には生成モデルのパラメーターではありません(通常、生成モデルはパラメーターが何であれ、任意の数の観測値を生成できると予想されます)。私はそれについて考えるための適切な方法が何であるかはよくわかりません。ρmρ
アメーバは、モニカを復活

1
@DeltaIVこの場合の「変量効果の共分散行列」とは何ですか?上記のJakeによって記述された混合モデルでは、ランダム効果は1つしかないため、実際には「共分散行列」はなく、 1つの数だけ。何を参照していますか? Σσu2Σ
アメーバは、モニカを復活させる

2
@DeltaIVまあ、一般的な原則はen.wikipedia.org/wiki/Inverse-variance_weightingであり、各被験者の標本平均の分散はによって与えられます(だからジェイクは重みは、被験者間の分散の推定値に依存する必要があります)。被験者内分散の推定値は、プールされた被験者内偏差の分散によって与えられ、被験者間分散の推定値は被験者の平均の分散であり、重みを計算できるものすべてを使用します。(ただし、これがlmerが行うことと100%同等かどうかはわかりません。)σu2+σe2/mi
アメーバは

1
ジェイク、はい、このハードコーディングがまさに私を悩ませていました。これが「サンプルサイズ」の場合、基になるシステムのパラメーターにはなりません。私の現在の考え方では、負のは、実際には無視される/未知の別の被験者内因子があることを示すべきだというものです。例えば、何らかの介入の前後にある可能性があり、それらの間の差は非常に大きいため、測定値は負の相関があります。しかし、これはそれを意味します本当にサンプルサイズが、この未知の因子のレベルの数ではなく、それは確かにハードコーディングすることができます...ρ メートルmρm
アメーバは回復モニカ言う
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.