これは、自殺カウントデータの季節的影響をテストする適切な方法ですか?
私は、米国の州の自殺による死亡に関連する17年(1995年から2011年)の死亡証明書データを持っています。確認しましたが、使用した方法の明確な感覚や結果に対する自信が得られません。 そのため、データセット内の特定の月に自殺が多かれ少なかれ発生する可能性があるかどうかを判断できるかどうかを確認しました。私の分析はすべてRで行われます。 データに含まれる自殺者の総数は13,909人です。 自殺が最も少ない年を見ると、309/365日(85%)に発生します。自殺が最も多い年を見ると、それらは339/365日(93%)に発生しています。 したがって、毎年自殺のないかなりの日数があります。ただし、17年間すべてで集計すると、2月29日を含む1年の毎日に自殺があります(平均が38の場合は5人のみ)。 1年の各日に自殺者の数を単純に合計しても、明確な季節性を示すものではありません(私の目には)。 月ごとのレベルで集計すると、月あたりの平均自殺者の範囲は次のとおりです。 (m = 65、sd = 7.4、m = 72、sd = 11.1) 私の最初のアプローチは、すべての年の月ごとにデータセットを集計し、月ごとの自殺数に系統的な分散がないという帰無仮説の予想確率を計算した後、カイ二乗検定を行うことでした。日数を考慮して(そしてうるう年の2月を調整して)各月の確率を計算しました。 カイ2乗の結果は、月ごとに大きな変動がないことを示しています。 # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下の画像は、1か月あたりの合計数を示しています。水平の赤い線は、それぞれ2月、30日月、31日月の期待値に配置されています。カイ2乗検定と一致して、予想カウントの95%信頼区間外にある月はありません。 時系列データの調査を開始するまで、私は終わったと思いました。多くの人が想像するstlように、statsパッケージの関数を使用したノンパラメトリック季節分解法から始めました。 時系列データを作成するには、集約された月次データから始めました。 suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …