2.04標準エラーの意味?信頼区間が大幅に重複する場合の有意差はありますか?


10

以下の画像は、心理学のこの記事からのものです。同僚はそれについて2つの変わった点を指摘しました:

  1. キャプションによると、エラーバーには「±2.04標準エラー、95%信頼区間」と表示されます。95%のCIに±1.96 SEが使用されているのを見たことがあります。2.04SEが何らかの目的で使用されていることはわかりません。2.04 SEには受け入れられた意味がありますか?
  2. 計画されたペアワイズ比較は、エラー対正しい予測可能な試行(t(30)= 2.51、p <.01)およびエラー対正しい予測できない試行(t(30)= 2.61、p <.01)(オムニバスF検定もp <.05で有意でした)。ただし、グラフは3つの条件すべてのエラーバーが大幅に重なっていることを示しています。±2.04 SE間隔がオーバーラップする場合、値はp <.05でどのように大幅に異なる可能性がありますか?オーバーラップは十分に大きいので、±1.96 SE間隔もオーバーラップすると想定しています。

2.04 SEエラーバーを示す棒グラフ


1
素晴らしい答え。(whuberが既に指摘したように)95%信頼区間の比較は、有意水準0.05で統計的検定を実行することと同じではないことを強調したいと思います。もちろんこれを扱った論文があります。信頼区間が利用可能な唯一の統計である場合、Paytonらは、ガウスデータの有意水準0.05に対して85%区間を使用することを提案します。彼らはここで仕事をフォローアップします
Martin Berglund、2012

1
ありがとう、@ Martin。ループを閉じるには、Payton らの論文を見ていませんが、85%の基準は明らかです。84%に対応するz値は、乗した場合、2になります。これらの2つを追加するとます。その平方根は。これは、ほぼ95%の間隔に対応するZ値です。Paytonは84%から85%に丸めたと思います。言いかえれば、彼らの勧告は(それが導出されたとしても)私が提供したのと同じ分析で説明できます。4 2242
whuber

@MartinBerglundとwhuber 0.05レベルで統計的検定を実行するための83.4%の信頼区間の独立した計算がオリジナルであるかどうか疑問に思ったとき、答えが出ました-明らかにそうではありません!紙のリファレンスをありがとう、とても役に立ちました。
トリスタン2013

回答:


11
  1. 30 2.042272 2.042.04は、31自由度のスチューデントt分布で使用する乗数です。引用は、自由度が適切であることを示唆しています。この場合、正しい乗数はです。302.0422722.04

  2. 平均は標準誤差の観点から比較されます。標準誤差は通常、標準偏差の倍です。ここで、(おそらくここでは約)はサンプルサイズです。これらのバーを「標準誤差」と呼ぶ際にキャプションが正しい場合、標準偏差は、表示されている約の値より少なくとも倍大きくなければなりません。標準偏差がで正の値とから間の平均のデータセットは、ほとんどの値が近い必要があります、N30+1=311/nn30+1=316316×5.5=3314180315.56316×5.5=3314180そして、少数の途方もない大きな値。(これがそうである場合、スチューデントt統計に基づく分析全体がいずれにしても無効になります。) 図は標準偏差ではなく標準偏差を示していると結論付ける必要があります。

  3. 平均の比較は、信頼区間のオーバーラップ(またはその欠如)に基づいていません。2つの95%CIは重複する可能性がありますが、それでも非常に大きな違いを示す可能性があります。その理由は、(独立した)平均値の差の標準誤差は、少なくともおよそ、平均値の標準誤差の平方和の平方根であるためです。例えば、平均の標準誤差場合14が等しく1との平均値の標準誤差17が等しく1、の次にCIを第1の平均(の複数使用して2.04をから延長する)11.9216.08とCIの2番目は14.92から拡張されます1411712.0411.9216.0814.92、かなり重複しています。それにもかかわらず、のSEはに等しくなります19.03。平均値の差1714=3は、この値の2.04倍より大きく、有意です。12+121.411714=32.04

  4. これらはペアごとの比較です。 個々の値は多くの変動性を示す可能性がありますが、それらの差は非常に一貫している場合があります。例えば、のようなペアのセット15 15.01 16 16.01 17 17.01 等は、各成分の変動を示すが、違いは、一貫して0.01。この違いはどちらのコンポーネントに比べても小さいですが、その一貫性は統計的に有意であることを示してます。(14,14.01)(15,15.01)(16,16.01)(17,17.01) 0.01


どうもありがとう。記事には、事後テストが2つのタイプの試験における各参加者の応答間のペアの比較であったことはどこにも記載されていないため、被験者間比較として扱っているという結論に飛びつきました(それはあまり適切ではなく、あまり強力ではありません)。私はあなたが正しいに違いないと思います、そして彼らはより敏感な(そしてグラフ化するのがより難しい)テストをしていました。ポイント#3に関しては、私の唯一の返答は、明らかにいくつかの統計を再学習する必要があるということです
octern

私はあなたの質問で「計画的なペアワイズ比較」というフレーズを拾っていました。ただし、引用する残りの結果は、それらがペアワイズ比較ではないことを示唆していますが、おそらく私の回答のポイント3と同様の計算から得られたものです。
whuber

つまり、3つの条件すべてを比較するオムニバステストを行うのではなく、3つの条件のうち2つを直接比較する事後テストを行っていたということです。混乱してすみません。でも今見てみると、とにかく正しかったと思います。オムニバステスト統計(F(2,60)=5.64, p<.05)を報告する方法は、それが反復測定テストであることを意味し、ポストホックテストも同様であったと考えられます。
12

すばらしい回答ありがとうございます。「その理由は、(独立した)平均値の差の標準誤差が、少なくともおよそ、平均値の標準誤差の平方和の平方根であることです。」これについて議論しているが、何も見つからなかった参照を探しています。この点について、いくつかのガイダンスをいただければ幸いです。多分誰かが私を助けることができますか?
ヨハネス

@Johannes SEの2乗は、標本平均の分散に比例します。(比例定数は人の定義に依存し、サンプルサイズによって若干異なる場合があります。)独立性は、平均の差のサンプリング分布の分散がSEの二乗の合計であることを意味します。
whuber

3

ここでの混乱の一部は、データのわかりにくい表現です。これは反復測定設計のようですが、エラーバーは、真の平均値がどれだけ適切に推定されたかの信頼区間です。繰り返し測定の主な目的は、生の平均値の品質推定値を取得するのに十分なデータを収集しないようにすることです。したがって、提示されたエラーバーなどは、話されているストーリーとほとんど関係がありません。重要な関心の価値は効果です。グラフの目的はストーリーの要点を強調することであり、効果とその信頼区間をグラフ化することがより適切でした。


ありがとうございました!グラフが分析を表していないように見える理由を表現するのに少し苦労していました。
12
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.