20年間にわたる希少疾患の発生率に関する2500人のシミュレーションデータを以下に示します
year number_affected
1 0
2 0
3 1
4 0
5 0
6 0
7 1
8 0
9 1
10 0
11 1
12 0
13 0
14 1
15 1
16 0
17 1
18 0
19 2
20 1
病気がより一般的になっていることを示すためにどのような検査を適用できますか?
編集:@Wrzlprmftで提案されているように、SpearmanとKendallのメソッドを使用して簡単な相関を試みました:
Spearman's rank correlation rho
data: year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3989206
Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
Cannot compute exact p-value with ties
>
Kendall's rank correlation tau
data: year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3296319
Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
Cannot compute exact p-value with ties
これらはこのタイプのデータに十分適していますか?@AWebbで示される方法を使用したマンケンドール検定では、P値は[1] 0.04319868になります。@dsaxtonによって提案されたポアソン回帰は、次の結果をもたらします。
Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3187 -0.8524 -0.6173 0.5248 1.2158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.79664 0.85725 -2.096 0.0361 *
year 0.09204 0.05946 1.548 0.1217
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.636 on 19 degrees of freedom
Residual deviance: 14.038 on 18 degrees of freedom
AIC: 36.652
Number of Fisher Scoring iterations: 5
ここの年コンポーネントは重要ではありません。最終的に何を結論付けることができますか?また、これらすべての分析では、2500(分母母数)は使用されていません。その数は違いを生みませんか?年ごとの発生率(number_affected / 2500)を使用した単純な線形回帰(ガウス)を使用できますか?
drop1(fit, test="LRT")
漸近z検定を行う代わりに、代わりに尤度比検定を行うために使用します。(そうすることで、0.107のp値が得られますが、統計的に有意ではありません。)人口数が毎年同じである場合、回帰に人口数を含める必要はありません。次に、それはスケーリング係数の役割を果たすだけです。ただし、リスクのある人口はおそらく20年間で変化するため、これを(1年あたりの人口値とともに)含める必要があります。通話に追加offset=log(pop_at_risk)
するだけglm
です。