平均の信頼区間を計算する方法は?


19

実験を3回繰り返すと想像してください。各実験では、3つの測定値を収集します。3つの実験的手段の違いと比較して、3つはかなり近い傾向があります。総平均の計算は非常に簡単です。しかし、どうすれば大平均の信頼区間を計算できますか?

サンプルデータ:

実験1:34、41、39

実験2:45、51、52

実験3:29、31、35

各実験の平均値がそうであるように、実験内の複製値はガウス分布に従うと仮定します。実験内の変動のSDは、実験的手段間のSDよりも小さくなっています。また、各実験で3つの値の順序付けがないと仮定します。各行の3つの値の左から右への順序は完全に任意です。

簡単なアプローチは、最初に各実験の平均を計算することです:38.0、49.3、および31.7、次にこれらの3つの値の平均とその95%信頼区間を計算します。この方法を使用すると、総平均は39.7で、95%の信頼区間は17.4から61.9の範囲です。

このアプローチの問題は、3つの複製の間の変動を完全に無視することです。そのバリエーションを説明する良い方法がないのだろうか。


1
答えではなく、単に直感的な観察です。プールされたデータのCIの平均(9個すべて)はであり、平均のみに基づくCIはです。わからないあなたのCIが何をしているか(タイプミス?17ない27、および51のない61?)、私が取得 STD 3つの手段のERR、およびのためにとして 2 DFとTのDISTの分位。部分的なプーリングがあるので、探しているCIはこれら2つの中間のどこかにあると思います。また、分散式の観点で考えること各CIは、式の半分を使用して、39.7±2.1339.7±12.832.984.300.975VY=E[VY|Yg]+V[EY|Yg]
probabilityislogic

2
@probabilityislogic:3つの実験平均のSEMは5.168(書いた2.98ではなく)であり、元の投稿(17.4から61.9)で与えた信頼区間は正しいです。SEMは、SD(8.95)からnの平方根(3の平方根)で割ることによって計算されます。代わりにn(3)で割った。
ハーヴェイモトゥルスキー

私のミスは、また、交換する必要がありますで、プールされた間隔で(そこに同じ過ち)6.402.136.40
probabilityislogic

次のリンクはこれに答えますか?talkstats.com/showthread.php/11554-mean-of-means

@TST、プールされた分散に関するウィキペディアへのリンク以外はないようです。手入れをしますか?
CHL

回答:


6

バランスのとれたランダムな一方向ANOVAモデルでgrandmeanのための自然な正確な信頼区間がある 実際、それは確認することは容易であることが観察手段の分布 ˉ Y iはある ˉ Y iはIID Nμをτ 2 τ 2 = σ 2 B + σ 2 wの

(yijμi)iidN(μi,σw2),j=1,,J,μiiidN(μ,σb2),i=1,,I.
y¯iy¯イイドNμτ2、十分に二乗和の間にすることが知られているSのSbが分布有しSSのBJτ2χ 2 I - 1と全体的な観察された平均とは無関係である ˉ YNμτ2τ2=σb2+σw2JSSb
SSbJτ2χ12
。したがって ˉ Y -μ
y¯Nμτ2
I1の自由度を持つスチューデントt分布があり、そこからμについての正確な信頼区間を取得するのは簡単です。
y¯μ1SSbJ1
t1μ

この信頼区間は、ガウスの平均値には何もなく、古典間隔が唯一のグループ手段を考慮しないことに注意してください観測などy¯。したがって、あなたが言及する簡単なアプローチ:

簡単なアプローチは、最初に各実験の平均を計算することです:38.0、49.3、および31.7、次にこれらの3つの値の平均とその95%信頼区間を計算します。この方法を使用すると、総平均は39.7で、95%の信頼区間は17.4から61.9の範囲です。

は正しい。そして、無視されたバリエーションについてのあなたの直観:

このアプローチの問題は、3つの複製の間の変動を完全に無視することです。そのバリエーションを説明する良い方法がないのだろうか。

間違っている。また、https: //stats.stackexchange.com/a/72578/8402でこのような単純化の正確性について言及しています。

2014年12月4日更新

いくつかの詳細は私のブログに書かれています:モデルを削減して信頼区間を取得します


このソリューションをPythonで実装するのに役立ちますか?stackoverflow.com/questions/45682437/…–
blehman

7

これは、線形混合効果モデル内の推定の問題です。 問題は、総平均の分散が2つの分散成分の加重和であり、別々に推定する必要があることです(データのANOVAを介して)。推定にはさまざまな自由度があります。したがって、通常の小標本(スチューデントt)公式を使用して平均の信頼区間を構築しようとすることができますが、平均からの偏差がスチューデントt分布に正確に従うことはないため、名目上のカバレッジを達成することはできません。

Eva Jarosovaによる最近の(2010)記事「Linear Mixed Effects Modelによる推定」では、この問題について説明しています。(2015年現在、Web上では利用できないようです。)「小さな」データセットのコンテキストでは(この場合よりも約3倍大きい)、彼女はシミュレーションを使用して2つの近似CI計算を評価します( -既知のサタースウェイト近似と「ケンワード-ロジャーの方法」)。彼女の結論には

シミュレーション研究により、共分散パラメーターの推定の品質と、結果として小さなサンプルの信頼区間の調整が非常に悪いことが判明しました。バランスの取れたデータでも、3種類の間隔[従来、サタースウェイト、KR]が大幅に異なる場合があることは明らかです。従来の間隔と調整された間隔との間に顕著な差が見られる場合、共分散パラメーター推定の標準誤差を確認する必要があります。一方、[3つの]タイプの間隔の差が小さい場合、調整は不要と思われます。

要するに、良いアプローチは

  1. 分散成分の推定値を使用し、t分布のふりをして、従来のCIを計算します。

  2. また、調整されたCIの少なくとも1つを計算します。

  3. 計算が「近い」場合、従来のCIを受け入れます。そうでない場合は、信頼できるCIを作成するにはデータが不十分であることを報告してください。


分散成分を使用すると、元の投稿で計算したのと同じ信頼区間が得られます。ANOVAテーブルには、2つのdfを持つ480.7の列間にSSがあります。これは、MSが240.3であることを意味します。SDはsqrt(MSbetween / n)= sqrt(240.3 / 3)= 8.95であり、これは私が最初に投稿したのと同じCI(17.4から61.9)につながります。あなたが引用したJarasovaの論文を追うのは非常に難しいと思いましたが、ここで関連性があるかどうかは完全にはわかりません(反復測定の設計に関するようです)。???
ハーベイモトルスキー

@Harveyあなたの説明は確かに私にとって繰り返し測定されているように聞こえます!Jarasovaの論文が注目されていると思います。
whuber

1
私は、3つのテストが3つの異なる試験槽(またはウェル)であるラボの一般的な状況を考えています。表に示されている3つの順序は任意です。最初の実験のレプリケート#2と2番目または3番目の実験のレプリケート#2との間には、接続または相関はありません。各実験には3つの測定値があります。したがって、実際には繰り返し測定されません。正しい?
ハーベイモトゥルスキー

whuber、正確な学生分布がここにあります。私の答えをご覧ください。
ステファンローラン

@whuber Eva Jarasovaの記事に提供するリンクは無効であり、Google検索では何も得られませんでした。参照を修正できますか?
プラキディア

0

両方の問題を解決する1つの信頼区間を持つことはできません。1つを選択する必要があります。実験内の分散の平均二乗誤差項から1つを導き出すことができます。これにより、実験内の値をどれだけ正確に推定できるか、または実験間でそれを行うことができます。前者を実行した場合、実際の平均値については何も伝えず、効果(この場合は0)についてのみ何も伝えないため、平均値の周りではなく0の周りにプロットする傾向があります。または、両方をプロットして、それらの機能を説明することもできます。

あなたはその間のハンドルを持っています。内部では、ANOVAでエラー項を計算してMSEを操作し、そこからCIのSEはsqrt(MSE / n)(この場合はn = 3)になります。


実際には、各平均および大平均に対して信頼できる間隔を設定できます。ベイジアンマルチレベルモデルを使用するだけです。この種の推定は、部分プールと呼ばれることもあります。問題は小さなサンプルだと思います。
マノエルガルディーノ

各平均値と総平均値に信頼区間を設定することもできますが、それらは異なるものです...信頼できる区間と同じです。この質問は、研究内の分散およびその間の分散に関するCIに関するものであると解釈しました。それでも、異なるCIの意味は異なるものになります。(私は文字通りnも取りませんでした)
ジョン

1
さらに、私ができないことは、本当に「できない」ことではありません。どういうわけか、すべてに対して1つの信頼区間を計算する単一の方程式を考え出すことができます。それは賢明なことを意味するものではありません。それは私ができないことを意味します。
ジョン

コメントを書いてから数分後、文字通りnを取る必要はないことに気付きました。しかし、それを編集するのが遅かった=)。
マノエルガルディーノ

0

大平均のCIは、元のデータの範囲に対しても広すぎると考えられます[17,62]。

この実験は化学では非常に一般的です。たとえば、参照材料の認証では、ロット全体からランダムにいくつかのボトルをピックアップする必要があり、各ボトルで複製分析を実行する必要があります。基準値とその不確実性をどのように計算しますか?それを行う方法はたくさんありますが、最も洗練された(そして正しいと思う)メタ分析またはML(Dersimonian-Laird、Vangel-Rukhinなど)を適用することです

ブートストラップの見積もりはどうですか?


1
シミュレーション(正規分布の主効果と誤差を含む10,000回の試行)は、[21、58]が平均の対称両側95%CIであることを示しています。
whuber

whuber:これらのシミュレーションをどのように行ったか知りたいです。元のデータからブートストラップしますか?それとも真のシミュレーション?後者の場合、データのシミュレーションに平均値とSDのどの値を使用しましたか?
ハーベイモトゥルスキー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.