平均の平均(平均の、平均の…)


8

次の細胞生物学実験を考えてみましょう。比較していますT培養細胞の異なる処理。各治療t変数によってインデックス付けされたいくつかの(マイクロタイター)ウェルで複製されますw{12W}。治療に対する反応をよく測定するにはw、 の合計 Fw重複しない顕微鏡写真、またはフィールドが記録されます。次に、フィールドごとにf よく w、 の合計 Cwf セルは計算により識別され、これにより各セルは c (よく w、フィールド f)は、 Pwfcピクセル。最後に、各ピクセルに関連付けp 測定です バツwfcp (そのピクセルで記録されたさまざまな蛍光信号の強度から派生)。

問題は、すべてのピクセル測定値を集計することです バツwfcp 「合理的な手段」を生み出す バツt 治療効果の t それで処理された細胞と同様に「広がり」のいくつかの測定 バツt

このような問題に対する標準的なアプローチは、平均を「メジャー」として使用し、分散(または標準偏差)を「スプレッド」として使用することです。ただし、この場合は、平均と分散を計算する方法が複数あり、同等ではありません。

今のところ手段に焦点を合わせると、極端な場合、単に バツwfcp すべてのピクセルにわたって(セル、フィールド、ウェルの分布を無視して)、この合計をピクセルの総数で割ります P (治療用 t):

1PΣw=1WΣf=1FwΣc=1CwfΣp=1Pwfcバツwfcp

反対の極端では、各レベルで平均をとることができます。最初に平均を計算します バツwfcバツwfcp 各セルについて、平均を計算する バツwfバツwfc 各フィールドなど:

1WΣw=1W[1FwΣf=1Fw[1CwfΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]]]

一般に、これらの2つの式は等しくありません。さらに、その間にいくつかのバリエーションがあります。私の計算では、これを行うには8つの方法があります(上記の2つを含む)。この記事の終わりに、すべてを栄光の中でリストしました。たとえば、これを計算することができます(下のリストの番号6)。

1WΣw=1W[1CwΣf=1FwΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]]

...どこ Cw=ΣfΣc1 (すべてのフィールドで合計された)セルの総数です。 w。(この式でエンコードされたレシピは、「平均値を計算してバツwfcp つまり、各セル、 バツwfc=[Σpバツwfcp]/Pwfcp; 次に、各ウェルw、これらの平均を計算する バツwfc すべての平均 Cw ウェル内の細胞 w—フィー​​ルドへの分布を無視-つまり バツw=[ΣfΣcバツwfc]/Cw; そして、最後に、平均バツw 全体 W 井戸 [Σwバツw]/W。」)

治療の効果を測定するために「平均を使用する」これらすべての異なる方法に直面している t、当面の問題は、もちろん、どちらを選択するかです。質問のより明確なバージョンは次のようになります:特定のバリアントが適切/有益/有用であるシナリオをどのように判断できますか?

そして、より一般的には、(平均の)平均の計算に落とし穴はありますか?

ありがとう!


(訂正歓迎)
1。1PΣw=1WΣf=1FwΣc=1CwfΣp=1Pwfcバツwfcp2。1WΣw=1W[1PwΣf=1FwΣc=1CwfΣp=1Pwfcバツwfcp]wherePw=Σf=1FwΣc=1CwfΣp=1Pwfc13。1FΣw=1WΣf=1Fw[1PwfΣc=1CwfΣp=1Pwfcバツwfcp]whereF=Σw=1WΣf=1Fw1Pwf=Σc=1CwfΣp=1Pwfc14。1CΣw=1WΣf=1FwΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]whereC=Σw=1WΣf=1FwΣc=1Cwf15。1WΣw=1W[1FwΣf=1Fw[1PwfΣc=1CwfΣp=1Pwfcバツwfcp]]6。1WΣw=1W[1CwΣf=1FwΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]]whereCw=Σf=1FwΣc=1Cwf17。1FΣw=1WΣf=1Fw[1CwfΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]]8。1WΣw=1W[1FwΣf=1Fw[1CwfΣc=1Cwf[1PwfcΣp=1Pwfcバツwfcp]]]


1
ネストされた分散分析を実行して、治療効果のいずれかが重要であるかどうかを識別できます。良いリファレンスは、SokalとRholfによるBiometryです。
aaronjg

算術平均は線形関数であるため、質問の最後の式はすべて等しくなります。分数はスカラーであるため、いずれの場合も合計の外に移動できます。合計の順序は重要ではありません。すべて同等です
1WFCPΣwfcpWFCPバツwfcp
naught101 2013年

@ naught101:私は完全に同意しません。まず、コメントの表現は、質問で使用した表記と一致していません。
kjo 2013年

それらを計算してみましたか?私が見逃した点が1つあることに注意してください。分散について言及し、その場合(分散の平均と平均の分散)は確かに異なります。分散は線形演算子ではないためです(平方和が含まれているため)。
naught101 2013年

回答:


5

これはあなたの質問への直接的な答え(「どのタイプの平均化を選択するか」)ではなく、平均を計算しないようにするための推奨事項です。

データは完全にネストされているため、シナリオは階層/マルチレベルモデル(MLM)のケースのように見えます。ランダム効果には3つのレベルがあります。セル(L2)にネストされたピクセル(レベル1)、フィールド(L3)にネストされたウェル(L4)です。治療は固定効果として扱われるべきです。

あなたは治療の効果にのみ興味があります。MLMメソッドは、各レベルのさまざまな分散を処理し、どのレベルでどの程度の分散が説明されるかについての推定も提供します。したがって、平均値を「測定値」として扱うことで、分散を「失う」ことはありませんが、生データのレベルでモデルを推定します。

ただし、この方法では、ランダム効果ごとに十分な数のグループが必要です(つまり、十分なピクセル、十分なセル、十分なフィールド、十分なウェル)。クロスレベルのインタラクションには興味がないので、一般的な推奨事項では、最低でも10から30ユニットのようなものです(もちろん、特定のシナリオなどによって異なります。たとえば、こちらをご覧ください)。


あなたが提供した最初のリンク(階層/マルチレベルモデル)は現在壊れているようです。
steko 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.