2つのサンプルの平均が著しく異なるが、差が問題には小さすぎると思われる場合の対処方法


13

私は2つのサンプル(有するn70の両方のケースでは)。平均は、プールされた標準の約2倍異なります。開発者 結果のT値は約10です。平均が同じでないことを最終的に示したことを知るのは素晴らしいことですが、これは大きなnによって駆動されるように思われます。データのヒストグラムを見ると、小さなp値が実際にデータを代表しているとは感じませんし、正直に言って引用するのは気にしないでください。おそらく間違った質問をしているのでしょう。私が考えているのは:わかりました、平均は異なり​​ますが、分布が重要な重複を共有しているのでそれは本当に重要ですか?

これはベイジアンテストが有用な場所ですか?もしそうなら、どこから始めるのが良い場所か、ちょっとしたグーグルは何も役に立たなかったが、私は正しい質問をしてはいけないかもしれない。これが間違っている場合、誰にも提案がありますか?または、これは定量分析ではなく単に議論のポイントですか?


私はあなたの最初の声明が間違っているという他のすべての答えに追加したいだけです。平均が異なることを最終的に示していません。t検定のp値は、データまたはそれより多くの極端な値を観察する確率はそう/そうであるかどうかを語っている帰無仮説与えられた t検定のためである(、すなわち、H 0: {"平均は等しい"})、これは実際には平均が異なることを意味するものではありません。また、プールされた分散t検定を行う前に、分散の等価性をテストするためにF検定も実行したと思いますか?μA=μBH0
ネスター

あなたの質問は重要な区別をもたらし、統計出力でいくつかの星を探して自分が完了したと宣言するのではなく、実際にあなたのデータについて考えていることを示しているため、非常に良いです。いくつかの回答が指摘しているように、統計的有意性有意味とは異なります。そして、あなたがそれについて考えるとき、彼らはそうすることはできません:統計的手順は、0.01の統計的に有意な平均差がフィールドAでは何かを意味するが、フィールドBでは無意味に小さいことをどのように知るでしょうか?
ウェイン

結構なことですが、この言語はスポットではありませんでしたが、p値が私が取得している値のようである場合、私は言葉についてあまりうるさくはない傾向があります。F検定(およびQQプロット)を行いました。彼らが言うように、ジャズに十分近い。
ボウラー

1
FWIW、あなたの手段が2 SD離れている場合、それは私にとってかなり大きな違いのようです。もちろん、それはあなたの分野に依存しますが、それは人々が肉眼で容易に気付く違いです(例えば、20-29歳のアメリカの男性と女性の平均身長は約1.5 SD異なります)。 「まったく重ならない、データ分析を行う必要はまったくありません。最小で、w / は6で、分布が重ならない場合、pは<.05になります。Np
GUNG -復活モニカ

私は違いが大きいことには同意しますが、結局はまったく不敬でした。
ボウラー

回答:


12

してみましょう示す第一集団との平均値μ 2示す第二集団の平均。あなたが二標本使用していたようですトンをかどうかをテストするには-test μ 1 = μ 2。有意な結果はその意味μ 1μ 2を、その差は、アプリケーションのために重要で、小さなまでのようです。μ1μ2tμ1=μ2μ1μ2

あなたが遭遇したことは、統計的に重要なものがアプリケーションにとって重要でないことがしばしばあるという事実です。違いは統計的に有意かもしれませんが、それはまだ意味がないかもしれません。

ベイジアンテストではその問題は解決しません。違いが存在すると結論付けるだけです。

しかし、抜け道があるかもしれません。例えば、一方的な仮説のためにあなたがいる場合と判断する可能性があるΔのより大きな単位μ 2、そのアプリケーションでは問題にする十分な大きさである意味の違いだろう。μ1Δμ2

その場合、あなたはかどうかをテストするでしょうの代わりかどうかμ 1 - μ 2 = 0T -statisticその場合であろう(等分散を仮定して) T = ˉ X 1 - ˉ X 2 - Δμ1μ2Δμ1μ2=0t ここで、spはプールされた標準偏差の推定値です。帰無仮説の下で、この統計は、Tはで-distributedN1+N2-2自由度。

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

この検定を実行する簡単な方法は、最初の母集団から観測値からを減算してから、通常の片側2標本t検定を実行することです。Δt


8

いくつかのアプローチを比較することは有効ですが、私たちの欲望/信念を支持するアプローチを選択する目的ではありません。

あなたの質問に対する私の答えは次のとおりです:2つの分布が異なる手段を持っている間に重複する可能性があり、それはあなたの場合のようです(しかし、より正確な答えを提供するためにデータとコンテキストを見る必要があります)。

通常の平均を比較するためのいくつかのアプローチを使用してこれを説明します。

1. テストt

サイズの2つのシミュレートされたサンプル検討からN 10 1 及びN 12 1 、その後のT -値はおよそ10(以下Rコードを参照)あなたの場合のように。70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

ただし、密度にはかなりの重なりがあります。ただし、平均に関する仮説をテストしていることを思い出してください。この場合、これは明らかに異なりますが、の値のために密度の重複があります。σ

ここに画像の説明を入力してください

2.プロフィール可能性μ

プロファイルの尤度と尤度の定義については、1および2を参照してください。

μnx¯Rp(μ)=exp[n(x¯μ)2]

シミュレートされたデータの場合、これらは次のようにRで計算できます。

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2

3.後方μ

(μ,σ)

π(μ,σ)1σ2

μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

繰り返しますが、手段の信頼区間は、妥当なレベルで重複しません。

結論として、分布が重複しているにもかかわらず、これらすべてのアプローチがどのように平均の有意差を示しているかを見ることができます(これが主な関心事です)。

P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

これがお役に立てば幸いです。


2
(+1)ベイジアン手法に関する本当に有益な回答をありがとう。また、P(X <Y)リンクは、同じ分析で疑問に思っていた別の問題に答えます。
ボウラー

7

正しい質問に答える

わかりました、平均は異なり​​ますが、分布がかなりのオーバーラップを共有するので、それは本当に重要ですか?

グループの平均が異なるかどうかを尋ねるテストは、正しく機能する場合、平均が異なるかどうかを示します。データ自体の分布が異なることはわかりません。それは別の質問だからです。 その質問は確かに平均が異なるかどうかだけでなく、分散、歪曲、尖度として(不完全に)要約される可能性のある他の多くのものにも依存します。

平均がどこにあるかについての確実性は、推定する必要があるデータの量に依存するため、より多くのデータを使用すると、より重複する分布の平均差を見つけることができます。しかし、あなたは

p値が小さいなど、データを実際に表します

確かに、少なくとも直接ではありません。これは仕様によるものです。データのサンプル統計の特定のペア(データ自体ではない)が異なる可能性があることの確実性を表す(おおよそ)。

単にヒストグラムを表示してその瞬間をテストするよりも、より正式な方法でデータ自体を表現したい場合、おそらく密度プロットのペアが役立つかもしれません。むしろ、実際にテストを使用する引数に依存します。

ベイジアン版

これらすべての点で、ベイジアン差分「検定」とT検定は同じことをしようとしているため、同じように動作します。ベイジアンアプローチを使用することで考えられる唯一の利点は、a)各グループで異なる分散を可能にするテストを簡単に実行できること、およびb)平均の差の推定サイズの推定に焦点を当てることです。何らかの差検定のp値を見つけるのではなく。とはいえ、これらの利点はごくわずかです。たとえば、b)の場合、差の信頼区間を常に報告できます。

「テスト」の上にある引用符は意図的なものです。ベイジアン仮説検定を行うことは確かに可能であり、人々はそうします。ただし、このアプローチの比較優位は、データのもっともらしいモデルを構築し、その重要な側面を適切なレベルの不確実性で伝えることに焦点を当てていることをお勧めします。


3

まず第一に、これは頻繁なテストをピン留めする問題ではありません。問題は、平均が正確に等しいという帰無仮説にあります。したがって、母集団の平均が少しでも異なっていて、サンプルサイズが十分に大きい場合、この帰無仮説を棄却する可能性は非常に高くなります。したがって、テストのp値は非常に小さいことがわかりました。犯人は帰無仮説の選択です。d> 0を選択し、平均値がd未満で絶対値がd未満であるという帰無仮説を採用します。dを選択すると、拒否するために実際の差を十分に大きくする必要があります。あなたの問題はなくなります。平均の正確な等価性の帰無仮説を主張する場合、ベイジアン検定は問題を解決しません。


他の2つと同時に答えを書いていました。
マイケルR.チャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.