データが指数分布に適合する2つのサンプルの平均を比較する方法


10

データの2つのサンプル、ベースラインサンプル、および処理サンプルがあります。

仮説は、処理サンプルの平均がベースラインサンプルよりも高いというものです。

どちらのサンプルも指数関数的です。データはかなり大きいので、テストを実行するときの各サンプルの要素の平均と数しかありません。

どうすればその仮説を検証できますか?私はそれが非常に簡単であると思います、そして私はF-Testを使用するためのいくつかの参照に出くわしましたが、パラメーターがどのようにマップされるかわかりません。


2
どうしてデータがないの?サンプルが本当に大きい場合、ノンパラメトリックテストはうまく機能するはずですが、要約統計量からテストを実行しようとしているようです。そうですか?
Mimshot 2013年

同じ患者セットのベースラインと治療の値ですか、それとも2つのグループは独立していますか?
マイケルM

1
@Mimshot、データはストリーミングされていますが、要約統計量からテストを実行しようとしているのは正しいです。通常のデータのZテストで非常にうまく機能します
ジョナサンドビー2013年

1
このような状況では、おおよそのz検定がおそらく最善の方法です。ただし、統計的有意性ではなく、真の治療効果がどれほど大きいかを気にします。十分な大きさのサンプルがあると、小さな真の影響は小さなp値につながることを覚えておいてください。
マイケルM

1
@january-ただし、サンプルサイズが十分に大きい場合は、CLTにより、通常の分布に非常に近くなります。帰無仮説の下では、分散は(平均と同じように)同じになるため、サンプルサイズが十分に大きければ、t検定は正常に機能します。すべてのデータでできるほど良くはありませんが、それでも問題ありません。 たとえば、はかなり良いでしょう。n1=n2=100
jbowman 2013年

回答:


14

尤度比検定(LR検定)を使用して、平均パラメーターが等しくないという代替案に対する平均パラメーターの同等性をテストできます。(ただし、平均パラメーターが異なり、分布が指数関数的である場合、これは位置シフトではなくスケールシフトです。)

片側検定の場合(ただし、両側検定の場合は漸近的にのみ)、LRテストは次と同等であると考えられます(これが実際に片側検定のLRテストと同じであることを示すため) 1は、LR統計を表示する必要がある場合には、中に単調だった)。x¯/y¯

我々はパラメータ化しましょうのpdfを持つものとして最初の指数では番目の観察1 / μ のx EXP - X I / μ Xi jの PDFたとして、第二の試料中の観察番目の 1 / μ yの EXPを- Y jは/ μ Y観察およびパラメータの明白なドメイン上()。 (明確にするために、ここではレート形式ではなく平均形式で作業しています。これは計算の結果には影響しません。)1/μxexp(xi/μx)j1/μyexp(yj/μy)

分布がガンマの特殊なケースであり、Γ 1 μ Xの合計の分布X「S、S X分配されるΓ N xはXiΓ(1,μx)XSx。同様に、 Y sの合計の場合、 S y Γ Γ(nx,μx)YSyΓ(ny,μy)

そのためガンマ分布とカイ二乗分布との関係、それが判明その分配される χ 2 2 N X。自由のその度にある2つのカイ二乗の比はF.よって比であり、 μ Y2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

そして、手段の平等の帰無仮説の下では、 2は、別の両面、および下に、値がヌル分布からのどちらか小さいかの値よりも大きくなる傾向があるかもしれませんなので、両側検定が必要です。x¯/y¯F2nx,2ny


代数で簡単な間違いを犯していないことを確認するシミュレーション:

ここでは、同じ平均の指数分布からのサイズが30、Yのサイズが20の1000サンプルをシミュレートし、上記の平均比率統計を計算しました。XY

以下は、結果の分布のヒストグラムと、ヌルの下で計算した分布を示す曲線 です。F

ヌルでの比率統計の分布のシミュレーション例


例、両側p値の計算についての議論

計算を説明するために、指数分布からの2つの小さなサンプルを次に示します。X標本には平均10の母集団からの14の観測値があり、Y標本には平均15の母集団からの17の観測値があります。

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

サンプル平均は、それぞれ12.082と16.077です。平均の比率は0.7515です

左側の領域は下の尾(Rの計算)にあるため、簡単です。

 > pf(r,28,34) 
 [1] 0.2210767

他の尾の確率が必要です。分布が逆対称である場合、これを行うのは簡単です。

分散比F検定(同様に両側検定)の一般的な慣習は、片側p値を2倍にすることです(事実上、何が起こっているか) 、ここでいることです。これは、Rでも行われているようです。たとえば、 ); この場合、p値は0.44になります。

α/2α


これは私が太いだけだと思いますが、0.7515はどこから来たのですか?
ジョナサンドビー

r = mean(x)/ mean(y)= 0.7515-つまり、「平均の比率」
Glen_b-モニカを

わかりました。0.67を取得しましたが、それはおそらくデータ入力エラーが原因です。
ジョナサンドビー

1
人口平均と結果のサンプル平均の区別をより明確にしました
Glen_b -Reinstate Monica

(+1)しかし、正接ですが、最後の段落は理解できません。片側のp値を2倍にする最大のを見つけることと等しくなりません。αα2

3

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯。単一の最小値がありますr=1にため、F検定は確かに、同一分布の帰無仮説の片側代替案に対する尤度比検定です。

rELRrobsPr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315

ここに画像の説明を入力してください

rETPPr(R>rETP)Pr(R<robs)Pr(R>rETP)μx>μyμx<μyμx>μyμx<μy

ここに画像の説明を入力してください

Rコードは次のとおりです。

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.