データの2つのサンプル、ベースラインサンプル、および処理サンプルがあります。
仮説は、処理サンプルの平均がベースラインサンプルよりも高いというものです。
どちらのサンプルも指数関数的です。データはかなり大きいので、テストを実行するときの各サンプルの要素の平均と数しかありません。
どうすればその仮説を検証できますか?私はそれが非常に簡単であると思います、そして私はF-Testを使用するためのいくつかの参照に出くわしましたが、パラメーターがどのようにマップされるかわかりません。
データの2つのサンプル、ベースラインサンプル、および処理サンプルがあります。
仮説は、処理サンプルの平均がベースラインサンプルよりも高いというものです。
どちらのサンプルも指数関数的です。データはかなり大きいので、テストを実行するときの各サンプルの要素の平均と数しかありません。
どうすればその仮説を検証できますか?私はそれが非常に簡単であると思います、そして私はF-Testを使用するためのいくつかの参照に出くわしましたが、パラメーターがどのようにマップされるかわかりません。
回答:
尤度比検定(LR検定)を使用して、平均パラメーターが等しくないという代替案に対する平均パラメーターの同等性をテストできます。(ただし、平均パラメーターが異なり、分布が指数関数的である場合、これは位置シフトではなくスケールシフトです。)
片側検定の場合(ただし、両側検定の場合は漸近的にのみ)、LRテストは次と同等であると考えられます(これが実際に片側検定のLRテストと同じであることを示すため) 1は、LR統計を表示する必要がある場合には、中に単調だった)。
我々はパラメータ化しましょうのpdfを持つものとして最初の指数では番目の観察1 / μ のx EXP (- X I / μ Xと jの PDFたとして、第二の試料中の観察番目の 1 / μ yの EXPを(- Y jは/ μ Y)観察およびパラメータの明白なドメイン上()。
(明確にするために、ここではレート形式ではなく平均形式で作業しています。これは計算の結果には影響しません。)
分布がガンマの特殊なケースであり、Γ (1 、μ X)の合計の分布X「S、S X分配されるΓ (N xは。同様に、 Y sの合計の場合、 S yは Γ (。
そのためガンマ分布とカイ二乗分布との関係、それが判明その分配される χ 2 2 N X。自由のその度にある2つのカイ二乗の比はF.よって比であり、 μ Y。
そして、手段の平等の帰無仮説の下では、 2は、別の両面、および下に、値がヌル分布からのどちらか小さいかの値よりも大きくなる傾向があるかもしれませんなので、両側検定が必要です。
代数で簡単な間違いを犯していないことを確認するシミュレーション:
ここでは、同じ平均の指数分布からのサイズが30、Yのサイズが20の1000サンプルをシミュレートし、上記の平均比率統計を計算しました。
以下は、結果の分布のヒストグラムと、ヌルの下で計算した分布を示す曲線 です。
例、両側p値の計算についての議論:
計算を説明するために、指数分布からの2つの小さなサンプルを次に示します。X標本には平均10の母集団からの14の観測値があり、Y標本には平均15の母集団からの17の観測値があります。
x: 12.173 3.148 33.873 0.160 3.054 11.579 13.491 7.048 48.836
16.478 3.323 3.520 7.113 5.358
y: 7.635 1.508 29.987 13.636 8.709 13.132 12.141 5.280 23.447
18.687 13.055 47.747 0.334 7.745 26.287 34.390 9.596
サンプル平均は、それぞれ12.082と16.077です。平均の比率は0.7515です
左側の領域は下の尾(Rの計算)にあるため、簡単です。
> pf(r,28,34)
[1] 0.2210767
他の尾の確率が必要です。分布が逆対称である場合、これを行うのは簡単です。
分散比F検定(同様に両側検定)の一般的な慣習は、片側p値を2倍にすることです(事実上、何が起こっているか) 、ここでいることです。これは、Rでも行われているようです。たとえば、 ); この場合、p値は0.44になります。
Rコードは次のとおりです。
x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
16.478, 3.323, 3.520, 7.113, 5.358)
y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447,
18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)
# observed ratio of sample means
r.obs <- mean(x)/mean(y)
# sample sizes
n.x <- length(x)
n.y <- length(y)
# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}
# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs
# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo
# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi
#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)
# overall p.value
p.value <- p.lo + p.hi
#approximate p.value
1-pchisq(2*llr.obs, 1)