2つの時系列が互いに「異なる」かどうかをどのように示すことができますか?


7

病気の登録簿に載っている若い患者の数が時間とともに増加していることを示す小さなデータセットがあります。これは、レジストリが時間の経過とともに成功し、今ではより多くのケースを捕らえているからだと思います。

したがって、毎年レジストリに登録されている患者の総数(つまり、すべての年齢)とともに、レジストリに登録されている若い患者の数を毎年(たとえば、折れ線グラフなど)プロットし、

私はこれを大まかにExcelで行いましたが、傾向は同じではありません。したがって、傾向が統計的/グラフ的に相互に一致しているかどうかを示したいと思います。誰もが、スタタまたはエクセルのいずれかを使用してこれを行う良い方法を提案できますか?

データサンプル


あなたの質問は本当に「プロポーションが時間の経過とともに変化しているかどうかをどのように見分けるのか」ということですか。
Silverfish 2017

ダイナミックタイムワーピングアルゴリズムを調べましたか?
Bruno Wu

回答:


8

カウントまたは比率の分散は、カウントまたは比率自体に比例する傾向があるため、理論(および多くの経験)は、データの平方根の分析を提案しています。

比率と全体の数を平方根軸にプロットして、自分の目で確かめてください。

図

各列は、それが表すカウントに正比例する視覚的影響を持つように、列の幅(およびその高さ)もカウントの平方根に比例します。これにより、列の面積がカウントに正比例します。タイトルが示すように、縦棒は、この比率の視覚化で2番目に重要であるため、軽く描かれているだけです。

滑らかな(青い線で示される)の周りの点(比率を表す)の見かけ上ランダムな変化、および滑らかな周りのその変化の近似的な対称性は、平方根スケールの妥当性を証明します。また、時間相関のより高度な分析は不要であることも示唆しています。このプロットに表示される傾向が本物であると確信できる場合があります。彼らは質問で示唆されたよりも微妙な絵を提示します:比率は増加しますが、最初の7年間のみです。

このような結合プロットの作成は、ExcelまたはStataで行うことができますが、どちらのプログラムでも難しく、手間がかかり、時間がかかります。この例はggplot2R(バージョン3.4.0)のパッケージで作成されました。


プロセスを説明するために、ここに完全なRコードを示します。

library(ggplot2)
X <- data.frame(Year=2003:2016,
                Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
                All=c(3007,5200,6000,5900,6740,7070,7120,
                      7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
  geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
           fill="#ffffe0", alpha=0.75, color="Gray") +
  geom_smooth(size=1.25) +
  geom_point(size=2) +
  ylab("All") +
  scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
  ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")

それは素晴らしいです-ありがとう 私はRとあまり面識がありません。その図を作成するために使用したコードを共有してもよろしいですか、または同様のことを達成するのに役立つ可能性のあるフォーカスされたヘルプリソースへの方向性を共有しますか?
MonteCristo 2017

平方根を使用する理由を拡大できますか?リニアスケールを使用して再作成してみましたが(私はへの2つの参照を削除しましたsqrt)、黄色のバーと青い線の両方の形状が同じであるため、同じ結論が得られるようです。
ダレン・クック

@Darren、カウントされたデータは通常、二項分布に従います。したがって、合計の小さな割合であるカウントには、カウント自体に近い分散があります。平方根は、そのような場合の分散安定化変換です。つまり、カウントがどのように変化するかに関係なく、プロットの可能性のある(垂直)変化の量は平方根スケールで同じになりますが、量は変化します線形スケールで。そのような同等分散性を達成することは、探索的分析と統計手法の選択に役立ちます。
whuber

@whuberありがとう。まだわかりませんが、二項分布をグーグルで調べて、悟りが来るかどうか確認します。:-)
ダレン・クック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.