非常に歪んだデータのt検定


18

私は、医療費データの数万件の観測データセットを持っています。このデータは非常に右に偏っており、多くのゼロがあります。2組の人々(この場合、それぞれ3000を超えるobsを持つ2つの年齢層)の場合、次のようになります。

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

このデータに対してウェルチのt検定を実行すると、結果が返されます。

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

このデータは非常に非正常であるため、このデータに対してt検定を使用するのは正しくないことを知っています。ただし、平均の差に順列検定を使用すると、常にほぼ同じp値が得られます(反復回数が増えるとより近くなります)。

Rでpermパッケージを使用し、正確なモンテカルロでpermTSを使用する

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

順列検定の統計値がt.test値に非常に近いのはなぜですか?データのログを取ると、順列テストからt.testのp値が0.28と同じになります。t検定の値は、ここで得ている値よりも多くのゴミになると思いました。これは、私がこのように持っている他の多くのデータセットにも当てはまり、なぜt検定が機能しないはずなのに機能しているように見えるのか疑問に思っています。

ここでの私の懸念は、個々のコストがiidではないことです。中央極限定理のiid要件を無効にするように見える、非常に異なるコスト分布(女性vs男性、慢性疾患など)の人々の多くのサブグループがあります。そのことについて?


データの最小値中央値の両方がゼロになるのはどうしてですか?
アレコスパパドプロス

値の半分以上がゼロであり、その年の半分は医療を受けていなかったことを示しています。
クリス

そして、なぜ置換テストは異なるべきだと思いますか?(両方のグループに同様の非正規分布がある場合)
FairMiles

iidは2つの別個の仮定であることに注意してください。最初は「独立」です。2つ目は「同一に分散」です。観測は「同一に分布」していないことを示唆しているようです。これは、すべての観測値が1つの大きな分布の混合物からのものであると想定できるため、これまでに提供された回答には影響しないはずです。しかし、観測が独立していないと思う場合、それははるかに異なっており、潜在的により難しい問題です。
zkurtz

回答:


29

t検定も順列検定も、2つのこのような異常に歪んだ分布の平均の違いを特定する力はありません。 したがって、これらは両方とも、有意性がまったくないことを示すアノディンp値を与えます。問題は、彼らが同意しているように見えるということではありません。違いをまったく検出するのに苦労しているので、彼らは単に異議を唱えることはできません!


いくつかの直観については、1つのデータセットで単一の値の変更が発生した場合にどうなるかを検討してください。たとえば、2番目のデータセットで最大721,700が発生しなかったとします。平均は約721700/3000減少し、約240になります。しかし、平均の差は4964-4536 = 438であり、2倍にもなりません。これは、平均値を比較して差が有意であるとは判断できないことを示しています(証明されていませんが)。

ただし、t検定が適用できないことを確認できます。 これらと同じ統計特性を持つデータセットを生成してみましょう。そうするために、混合物を作成しました。

  • 5/8
  • 残りのデータには対数正規分布があります。
  • その分布のパラメーターは、観測された平均値と第3四分位数を再現するように調整されます。

これらのシミュレーションでは、最大値も報告された最大値からそれほど遠くないことがわかります。

最初のデータセットを10,000回複製して、その平均を追跡しましょう。(2番目のデータセットに対してこれを行うと、結果はほぼ同じになります。)これらの平均のヒストグラムは、平均のサンプリング分布を推定します。この分布がほぼ正規の場合、t検定は有効です。正規性から逸脱する範囲は、スチューデントのt分布がエラーになる範囲を示します。したがって、参考のために、これらの結果に適合する正規分布のPDFも(赤で)描画しました。

ヒストグラム1

なんらかの大きな異常値があるため、詳細は表示されません。(これは、私が言及した手段のこの感受性の現れです。)それらのうちの123があります-1.23%-10,000以上。残りの部分に焦点を当てて、詳細を確認できるようにします。これらの外れ値は、分布の仮定された対数正規性に起因する可能性があるためです。

ヒストグラム2

3000/4282=50


Rこれらの図を作成したコードを次に示します。

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level

1
それでも大量のデータがあるため、t検定適用可能な非常に歪んだデータセットの例については、stats.stackexchange.com / questions / 110418 /…を参照してください。これらの2つのケースを合わせると、この質問に対する簡単な答えはありません。t検定が有意義かつ正確かどうかを判断する際には、データの分布とデータ量の両方を考慮する必要があります。
whuber

3
n = 30またはn = 300で先に進み、サンプル平均が正規分布していると仮定するのに十分だと思う人々に直面したときに、この質問を再び見つけられることを期待して、この質問を好みました。良い例がありますが、これが実際のデータの問題であることを示すのは素晴らしいことです。
Glen_b-モニカを復活させる

1
+1ですが、そのような状況で実際的な推奨事項はどうなるのでしょうか。平均の代わりに、他の統計に基づいて置換テストを使用する必要がありますか(おそらく高い分位数)。手段で標準テストを実行する前に、何らかの変換を適用する必要がありますか?または、2つのサンプル間の有意差を検出するという希望を捨てる必要がありますか?
アメーバは、モニカを復活させる

@amoeba平均の違いをテストすることが懸念される場合、置換テストは役に立たないでしょう。ここで大きな違いを見つけることはできません。他の統計をテストする場合、平均(特にコストデータに関連する!)をテストしていないので、推奨できるかどうかは目的によって異なります。
whuber

4

nが大きい場合(300など、3000をはるかに下回る)、t検定はz検定と本質的に同じです。つまり、t検定は中心極限定理の適用にすぎません。つまり、2つのグループのそれぞれのMEANはほぼ正確に正規分布しています(2つの平均の根底にある観測値が通常とはかけ離れている場合でも)配布!)。これは、典型的なtテーブルが1000より大きいnの値を表示することを気にしない理由でもあります(たとえば、このtテーブル)。したがって、あなたがそのような行儀の良い結果を得ているのを見て驚くことではありません。

編集: 歪度の極限とその重要性を過小評価していたようです。上記の私のポイントはそれほど極端でない状況ではメリットがありますが、質問に対するwhuberの答えは全体的にはるかに優れています。


2
引用された統計が証明しているように、歪度が極端な場合、300個または3000個のサンプルの平均のサンプリング分布が正規に近い場所にあるという保証はありません。それは OPが驚いている理由です。あなたはあなたが驚いていないと言って反論しますが、それは他の人に比べてある人の直感に帰着するように見えます。300(または3000)がt検定が適切に機能するのに十分な大きさのサンプルであることを示すこれらのデータに対して、どのような客観的な議論を提供できますか?
whuber

素晴らしい点。データが十分に歪んでいる場合、私の議論は失敗します。だから、私にとっての質問は、データが正確にどの程度歪んでいるか、そして歪度を必要なサンプルサイズに関連させる公式な結果がそこにあるのかということです。
zkurtz

1
その質問に対する答えを投稿しました。問題の要約統計に基づいて、データがどの程度歪んでいるかを(少なくともおよそ)知っています。このスキューは非常に強いため、グループごとに300、3000、さらには30,000の観測値でも、平均のサンプリング分布は「ほぼ正確に」なりません。その主張がもっともらしくなる前に、おそらく約300,000ほど必要です。したがって、2つのテストが一致する理由について、別の説明を探さなければなりません。私の問題は、どちらも「行儀が良い」ということではなく、どちらも「行儀が良い」ということです。
whuber

0

私はこの答えがかなり遅いことを知っています。しかし、私は医療サービスの研究で博士号を取得しているので、費用データを含む医療データを頻繁に使用しています。

OPに含まれていたデータがわかりません。クロスセクションデータである場合、正当な理由はIIDである可能性があります。独立とは、各ユニット、つまり各人が独立していることを意味します。それは正当である可能性が非常に高いです。同じように分布する場合、データはすべて、たとえば、ログリンクを使用した一般化線形モデルのガンマ分布に由来するものとしてモデル化できます。これは、実際に人々がよく行うことです。または、空想を得たい場合は、おそらく過剰な0を扱うハードルモデル(計量経済学で人気)があります。ところで、これは医療費ではかなり一般的です。OPは技術的には正しいので、データは必ずしも同じように分布しているわけではありません。たとえば、平均と分散は年齢とともに変化しますが、多重回帰モデルでは実行可能な仮定です。

各人が1年以上データセットにいた場合、データはIIDではありません。より複雑なモデルが利用可能です。それらのうちの比較的単純なものは、おそらく一般的な推定式、ガンマ分布、および対数リンクであり、交換可能な作業相関を想定しています。または、これらのデータが一般に入手可能な調査データからのものである場合、サンプリングされる確率は等しくありません-それらの調査の多くは各家庭の複数の人々にインタビューし、人口を層別化し、一部のグループ(人種的少数派など)をオーバーサンプリングします。ユーザーはそれを修正する必要があります。

特に観測データではなく、t検定を使用しません。交絡因子が多すぎるため、(一般化された)線形モデルで調整する必要があります。そのため、t検定に特に関連する質問にコメントすることはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.