私は、医療費データの数万件の観測データセットを持っています。このデータは非常に右に偏っており、多くのゼロがあります。2組の人々(この場合、それぞれ3000を超えるobsを持つ2つの年齢層)の場合、次のようになります。
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
このデータに対してウェルチのt検定を実行すると、結果が返されます。
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
このデータは非常に非正常であるため、このデータに対してt検定を使用するのは正しくないことを知っています。ただし、平均の差に順列検定を使用すると、常にほぼ同じp値が得られます(反復回数が増えるとより近くなります)。
Rでpermパッケージを使用し、正確なモンテカルロでpermTSを使用する
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
順列検定の統計値がt.test値に非常に近いのはなぜですか?データのログを取ると、順列テストからt.testのp値が0.28と同じになります。t検定の値は、ここで得ている値よりも多くのゴミになると思いました。これは、私がこのように持っている他の多くのデータセットにも当てはまり、なぜt検定が機能しないはずなのに機能しているように見えるのか疑問に思っています。
ここでの私の懸念は、個々のコストがiidではないことです。中央極限定理のiid要件を無効にするように見える、非常に異なるコスト分布(女性vs男性、慢性疾患など)の人々の多くのサブグループがあります。そのことについて?