カウントまたは比率の分散は、カウントまたは比率自体に比例する傾向があるため、理論(および多くの経験)は、データの平方根の分析を提案しています。
比率と全体の数を平方根軸にプロットして、自分の目で確かめてください。
各列は、それが表すカウントに正比例する視覚的影響を持つように、列の幅(およびその高さ)もカウントの平方根に比例します。これにより、列の面積がカウントに正比例します。タイトルが示すように、縦棒は、この比率の視覚化で2番目に重要であるため、軽く描かれているだけです。
滑らかな(青い線で示される)の周りの点(比率を表す)の見かけ上ランダムな変化、および滑らかな周りのその変化の近似的な対称性は、平方根スケールの妥当性を証明します。また、時間相関のより高度な分析は不要であることも示唆しています。このプロットに表示される傾向が本物であると確信できる場合があります。彼らは質問で示唆されたよりも微妙な絵を提示します:比率は増加しますが、最初の7年間のみです。
このような結合プロットの作成は、ExcelまたはStataで行うことができますが、どちらのプログラムでも難しく、手間がかかり、時間がかかります。この例はggplot2
、R
(バージョン3.4.0)のパッケージで作成されました。
プロセスを説明するために、ここに完全なR
コードを示します。
library(ggplot2)
X <- data.frame(Year=2003:2016,
Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
All=c(3007,5200,6000,5900,6740,7070,7120,
7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
fill="#ffffe0", alpha=0.75, color="Gray") +
geom_smooth(size=1.25) +
geom_point(size=2) +
ylab("All") +
scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")