「平均化」差異


10

分散のリストからある種の「平均」を取得する必要がありますが、妥当な解決策を見つけるのに問題があります。このスレッドでは、ピタゴラスの3つの平均(算術、幾何学、調和)の違いについて興味深い議論があります。しかし、私はまだそれらのどれもが良い候補になるとは思いません。助言がありますか?

PS一部のコンテキスト-これらの分散は、人の被験者からのサンプル分散であり、各被験者はほぼ同じサンプルサイズ同じ実験計画を通過しました。つまり、被験者に対応する標本分散、、...、あります。メタ分析はすでに人口レベルで実行されています。ある種の「平均」または「要約された」サンプル分散を取得する必要がある理由は、メタ分析の後にそれを使用してICCなどのインデックスを計算するためです。K N σ 2 1 σ 2 2 σ 2 N Nnknσ12σ22σn2n

PPS議論をより具体的にするために、Rで次の例を使用して問題を説明しましょう。

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

データセットには、各学校の成績スコアに関連する差異があります。

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

階層的または混合効果モデルでメタ分析を実行するとします。

yij=a+αi+βj+ϵij

ここで、とはそれぞれ番目の学校と番目の地区の変量効果であり、は既知のガウス分布の測定誤差です。このモデルは次のように分析できます。β J、I 、J ε I J N 0 VのI JαiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

2つの分散コンポーネントの次の分散推定をレンダリングします。

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

結果の2つの分散sigma ^ 2.1とsigma ^ 2.2は、2つの変量効果変数(地区と学校)に対応しています。

地区のICCを計算したいので、測定項個々の分散の最初の場所で要約された分散を取得したいと思います。合計分散は ϵ i jvijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

私の元の(そして単純な)アプローチは、算術平均のみを使用することでした:

σ12σ12+σ22+mean(vij)

しかし、算術平均がこのコンテキストで適切かどうかはません。mean(vij)


4
ここにすべてがコンテキストです。これらの理論的な分散(分布の瞬間)またはサンプルの分散ですか?それらが標本分散である場合、標本間の関係は何ですか?彼らは同じ集団から来ていますか?はいの場合、各サンプルのサイズを入手できますか?サンプルが同じ母集団に由来しない場合、分散の平均をどのように正当化しますか?
Alecos Papadopoulos 2017

2
階層的モデリングは非常に柔軟な答えです。8つの学校に関するこのブログ投稿は良いスタートです。andrewgelman.com/2014/01/21/…Gelman et al。、Bayesian Data Analysisは、詳細情報を入手するのに最適な場所です。
Sycoraxは、モニカを2017


1
これはXY問題ですか?分散を平均化する方法を知りたいですか?またはメタ分析のICCを計算する方法を知りたいですか?
マークホワイト

1
その場合、このstats.stackexchange.com/questions/187197/…ヘルプを投稿しますか?
mdewey 2017年

回答:


7

あなたが得たコメントを拡大して、あなたのタイトルの質問に対する答えは標準偏差を「合計する方法」ですでに与えられていますか?スレッドし、次のように読み取ります。平均標準偏差を取得するには、最初に分散の平均を取り、次にその平方根を求めます。

n×knk

ことに注意してくださいICCの近代的製剤上記のように、実際にはそうあなたのために複数の問題は、このようなモデル解きを採用した、一種の混合効果モデルの面でそれを定義し、それは多くの場合、推奨メタ分析へのアプローチ(それ予告であるICC缶誤解を招く)。


編集に関して、モデルが

yij=a+αi+βj+ϵij

αiN(μα,σα2)βjN(μβ,σβ2)ϵijN(0,σϵ2)

ICCα=σα2σα2+σβ2+σϵ2

α,βϵα

(...)クラス内相関は、同じクラスの観測に共通する原因による分散全体の一部にすぎません。

したがって、ICC式の分子は対象となる効果の分散であり、分母は全体の分散です。分散の平均は分散の合計(分散の合計)とは関係がないため、何かを誤解しない限り、ここで平均がなぜ関心の対象であるのかわかりません。


私は答えと上記のすべてのコメントに本当に感謝しています!問題をさらに明確にするために、元の投稿に別の追記を追加しました。私はベイジアンアプローチにあまり詳しくないことを認めざるを得ません。ベイジアンパラダイムで問題の特徴をより明確にできる場合は、ポストスクリプトで紹介したデータセットの例でもう少し詳しく説明してください。ありがとう!
ブルーポール

@bluepoleベイジアンモデルは必要ありません。従来の混合効果モデルは問題なく機能します。ベイジアンモデルは一般に、このような問題に対してより柔軟です。
Tim

それで、私の元の投稿に追加されたサンプルデータセットについて、算術平均はコンテキスト内で妥当であると思いますか?
ブルーポール

ϵijN(0,σij2)N(0,σϵ2)σij2σϵ2

ϵijN(0,σij2)σij2iσij2/ijσij2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.