2つの非定常時系列を比較して相関を決定する方法は?


10

時間の経過に伴う死亡時の年齢の中央値をプロットする2つのデータシリーズがあります。どちらのシリーズも、長期にわたる死亡年齢の増加を示していますが、一方は他方よりはるかに低くなっています。下のサンプルの死亡年齢の増加が上のサンプルのそれと大幅に異なるかどうかを確認したいと思います。

以下に年(1972年から2009年まで)の順に小数点以下3桁に四捨五入したデータ示します

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

どちらのシリーズも非定常です-どうすれば2つを比較できますか?STATAを使用しています。アドバイスをいただければ幸いです。

データプロット


データへのリンクを提供すると、マット、質問を編集してそれらのデータを含めることができます。
whuber

私の窮状に関心をお寄せいただきありがとうございます-データへのリンクが追加されました。すべてのヘルプはappreciated.Mattだろう
マット・ハーレー

@マット:データをちらりと見ると、どちらも上昇傾向にあるようです。では、1つのコホートが他のコホートよりも急速に増加しているという仮説に本質的に関心がありますか?
Andrew

はい、アンドリュー-上位のコホートは一般的な人口ですが、死亡年齢がより低いコホートは、同じ状態で亡くなっているグループです。帰無仮説は、それらが密接に相関している場合、生存率の改善は一般的な要因による可能性がある(そして前記状態の改善されたケアではない)というものです。
Matt Hurley

ただし、測定された増加は明らかに異なるため、正式なテストは必要ありません。(勾配をどのように評価および比較しても、変動をどのようにモデル化しても、p値は以下になります。)平均寿命の差は、0.83%の割合で指数関​​数的に減少しました。年。興味深いのは、2001年のコホートBの突然の後退です。この変化(6年間の進行の瞬間的な損失に相当)は統計的に有意です。1010
whuber

回答:


13

これは簡単な状況です。そのままにしておきましょう。 重要なのは、重要なことに集中することです。

  • データの有用な説明を取得します。

  • その説明からの個々の逸脱の評価。

  • 解釈における可能性のある役割と偶然の影響を評価する。

  • 知的完全性と透明性の維持。

まだ多くの選択肢があり、多くの形式の分析が有効で効果的です。ここで、これらの主要な原則への準拠を推奨できる1つのアプローチを示します。

整合性を維持するために、データを半分に分割します。1972年から1990年までの観測と1991年から2009年までの観測(それぞれ19年)です。モデルを前半にフィットさせ、後半が投影する際にフィットがどの程度うまく機能するかを確認します。これには、後半に発生した可能性のある重要な変更を検出するという追加の利点があります。

有用な説明を取得するには、(a)変更を測定する方法を見つけ、(b)それらの変更に適した最も単純な可能なモデルを当てはめて評価し、より複雑なモデルを繰り返し当てはめて、単純なモデルからの偏差に対応する必要があります。

(a)選択肢はたくさんあります。生データを見ることができます。あなたは彼らの年次差を見ることができます。対数でも同じことができます(相対的な変化を評価するため)。失われた寿命や相対的な平均余命(RLE)を評価できます。または他の多くのもの。いくつか考えた後、RLEを検討することにしました。これは、(参照)コホートAのそれに対するコホートBの平均余命の比率として定義されています。幸いにも、グラフが示すように、コホートAの平均余命は安定して定期的に増加していますRLEのランダムに見えるバリエーションのほとんどは、コホートBの変化によるものです。

(b)最初に考えられる最も単純なモデルは、線形トレンドです。それがどれほどうまく機能するか見てみましょう。

図1

このプロットの濃い青色の点は、フィッティングのために保持されているデータです。薄い金のポイントは後続のデータであり、フィットには使用されません。黒い線はフィットで、傾きは.009 /年です。破線は、将来の個々の値の予測間隔です。

全体的に、適合は良好に見えます。残差(以下を参照)を調べても、サイズ(1972〜1990年のデータ期間中)でサイズに重要な変化は見られません。(平均余命が低かった初期の段階では、それらが大きくなる傾向があったことを示す兆候があります。単純さを犠牲にすることでこの合併症に対処することはできますが、傾向を推定することの利点はそれほどありそうもありません。)ほんのわずかなヒントがあります。一連の相関関係(正の残差の実行と負の残差の実行によって示される)ですが、明らかにこれは重要ではありません。予測バンドを超えるポイントによって示される異常値はありません。

1つの驚きは、2001年に値が突然予測範囲の下限に下がり、そこに留まったことです。かなり突然の大きなことが起こり、持続しました。

これが残差です。これは、前述の説明からの偏差です。

図2

残差を0と比較するため、視覚的な補助として垂直線がゼロレベルに描画されます。繰り返しになりますが、青い点は近似に使用されたデータを示しています。薄い金色のものは、2000年以降の予測下限に近いデータの残差です。

この図から、2000〜2001年の変更の影響は約-0.07であったと推定できます。これは、コホートB内の全寿命の0.07(7%)の突然の低下を反映しています。その低下の後、残差の水平パターンは、以前の傾向は続いたが、新しいより低いレベルにあることを示しています。分析のこの部分は探索的であると考える必要があります。具体的に計画されたわけではありませんが、保持されたデータ(1991-2009)と残りのデータへの適合との驚くべき比較により生じました。

107

より複雑なモデルをこれらのデータに当てはめる理由はないようです。少なくとも、RLEに本物の傾向があるかどうかを推定するためではありません。さらに進んで、推定値を調整するために、データを2001年以前の値と2000年以降の値に分割できます。しかし、仮説テストを実施することは完全に正直ではありません。分割テストが事前に計画されていないため、p値は人為的に低くなります。しかし、探索的な演習として、そのような推定は問題ありません。データからできる限りのことを学びましょう!過剰適合(半ダース以上のパラメーターを使用するか、自動適合技術を使用する場合に発生することはほぼ確実です)、またはデータスヌーピングに注意しないでください:正式な確認と非公式の違いに注意してください(ただし貴重な)データ探索。

要約しましょう:

  • 平均余命(RLE)の適切な測定を選択し、データの半分を保持し、単純なモデルをフィッティングし、残りのデータに対してそのモデルをテストすることにより、次のことを高い信頼で確立しました。それは長い期間にわたって線形に近いです。そして、2001年にRLEが突然持続的に低下した。

  • 私たちのモデルは驚くほど節約的です。初期のデータを正確に説明するには、2つの数値(勾配と切片)だけが必要です。この説明からの明らかではあるが予想外の逸脱を説明するには、3番目(休憩の日付、2001年)が必要です。この3つのパラメーターの説明に関連する外れ値はありません。モデルは、シリアル相関(時系列手法の焦点)の特徴付け、示される小さな個別の偏差(残差)の記述、またはより複雑な近似(2次時間コンポーネントの追加など)の導入によって大幅に改善されることはありません。または、経時的な残差のサイズのモデリング変化)。

  • トレンドは年間0.009 RLEです。これは、年を重ねるごとに、コホートB内の平均余命に、予想される通常の全寿命の0.009(ほぼ1%)が追加されたことを意味します。研究の過程(37年間)で、37 * 0.009 = 0.34 =全寿命の改善の3分の1になります。2001年の後退により、その増加は1972年から2009年までの全寿命の約0.28に減少しました(その期間中の平均寿命は10%増加しましたが)。

  • このモデルは改善される可能性がありますが、より多くのパラメーターが必要になる可能性が高く、改善はあまりありません(残差のほぼランダムな動作が証明するため)。そのため、全体として、分析作業がほとんどないため、データのそのようコンパクトで、有用で、単純な説明に到達することに満足する必要があります


:whuber識別されたワンタイムパルスは、予測に
影響

2

私はwhuberの答えは簡単で、私のような時系列でない人が理解するのは簡単だと思います。私は彼に基づいています。私の答えはスタタではないので、スタタではなくRにあります。

問題は、実際の年の増加の絶対値が2つのコホートで(相対的ではなく)同じであるかどうかを確認するように実際に求めているのでしょうか。これは重要だと思い、次のように説明します。次のおもちゃの例を考えてみましょう:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

ここに画像の説明を入力してください

ここには2つのコホートがあり、それぞれの生存期間の中央値は毎年1年ずつ増加しています。したがって、この例の両方のコホートは毎年同じ絶対量で増加しますが、RLEは次のようになります。

rle <-  a / b
plot(rle)

ここに画像の説明を入力してください

これは明らかに上昇傾向にあり、線0の勾配は2.2e-16であるという仮説を検証するためのp値です。フィットした直線(この直線が曲線に見えることは無視してください)の勾配は0.008です。したがって、両方のコホートが1年で同じ絶対増加を示したとしても、RLEは上昇傾向にあります。

したがって、絶対的な増加を探したいときにRLEを使用すると、帰無仮説が不適切に拒否されます。

提供されたデータを使用して、取得するコホート間の絶対差を計算します。 ここに画像の説明を入力してください

これは、生存期間中央値の絶対差が徐々に減少していることを意味します(つまり、生存率の低いコホートは生存率の良いコホートに徐々に近づいています)。


:Andrewは、グラフの最後にある残差の2つのクラスターに注目してください。これは、分析に潜在的な欠陥があることを示しています。残念ながら、統計学者でもある熟練した数学者でさえ、時系列の人々ではないことがあります。私が提案したのは、時系列分析の標準的な操作手順です。
IrishStat

@andrewニースの反応。私は賛成しました、あなたの資格を信じます!
アダム

1
:アダムあなたの素敵な言葉をありがとう。私は過去40年間その分野を専門としてきたため、私がある程度の専門知識を持っている時系列の問題/質問についてのみ意見を述べることに注意してください。
IrishStat

@IrishStatタッチ談話。素晴らしい経験です。私が生まれる前から、私のようなパンクを配置してきました。
アダム

:アダム全体のアイデアは、他の人々を助けることです。私は本当にそうであることを望みます。「パンク」という言葉が全然ないので戸惑う。ただ助けようとしています!
IrishStat

1

これらの2つの時系列には、確定的な傾向があるようです。これは、さらに分析する前に明らかに削除したい関係の1つです。個人的に、私は次のように進みます:

1)定数と時間に対して時系列ごとに回帰を実行し、時系列ごとに残差を計算します。

2)上記の手順で計算された2つの残差系列を使用して、(定数項なしで)単純な線形回帰を実行し、t統計量、p値を調べ、間にさらに依存関係があるかどうかを判断します2つのシリーズ。

この分析では、線形回帰で行ったのと同じ一連の仮定を想定しています。


:user3544一定の時間に対して回帰を実行することは、トレンド除去の一種であり、プレホワイトニングの1つの形式です。差異化は、プレホワイトニングの別の形式です。複数の傾向または異なる形式の差異演算子が存在する可能性があるため、どちらも推定です。差分演算子は、シリーズをホワイトノイズに変換するARIMAフィルターの特定のケースであることに注意してください。一般的なもの構造またはYとXの間の転送特定の目的のために雑音も(X)を作成した後、Y(必ずしも白色ではないノイズ)を作成するYにそのフィルタを適用するフィルタXに望む
IrishStat

:User3544シンプルで複雑でない単一のトレンドを使用することに拍手を送るべきでしたが、時々1つが仮定ではないはずだと思います。シリーズにレベルシフトがある場合や、多数のトレンドがある場合、シンプルなトレンドは役に立たないことがよくあります。パラメータの不変性に関するテスト仮説は、Chow Testを使用して任意に視覚的にポイントを選択するのではなく、パラメータが変更された可能性がある時点を検索する場合に、堅牢で実施する必要があります。異常な値が自己相関の下方バイアステストを行うことはよく知られており、そのため、それらを検出する必要があります。
IrishStat

IrishStat:あなたの拍手はよく受け取られ、聞かれます。:)私はあなたのコメントに完全に同意しますが、2つの時系列のプロットを考えると、私は「シンプルにしましょう」と思いました.. :)
Lalas

1
:user3544私のお気に入りのEinsteinの引用は、「すべてをできるだけ単純にするが、単純ではない」または言い換えるモデルをできるだけ単純にするが、単純ではないという分析もあります。この場合、レベルシフトを照らしながら、2つのコホート間の同時相関とラグ相関を特定するだけで十分です。続きを読む:brainyquote.com/quotes/quotes/a/…
IrishStat

0

場合によっては、仮説をテストするために使用できる理論モデルがわかっています。私の世界では、この「知識」が欠落していることが多く、以下のことを要約する探索的データ分析として分類できる統計手法に頼らなければなりません。非定常、つまり自己相関特性を持つ時系列データを分析する場合、単純な相互相関テストは誤検知が簡単に見つかる限り、誤解を招くことがよくあります。これの最も初期の分析の1つは、1926年、GUのYuleにあります。「時系列の間で意味のない相関関係が時々得られるのはなぜですか?サンプリングと時系列の性質に関する研究」、Journal of the Royal Statistical Society 89、1– 64。または、1つ以上のシリーズ自体が例外的なアクティビティの影響を受けた場合(whuberを参照)2001年のコホートBの突然の後退)は、重要な関係を効果的に隠すことができます。現在、時系列間の関係の検出は、同時関係だけでなく、遅れている可能性のある関係の調査にも拡張されています。続いて、いずれかのシリーズが異常(1回限りのイベント)の影響を受けている場合は、これらの1回限りの歪みを調整して分析をロバスト化する必要があります。時系列の文献は、構造をより明確に特定するために、事前ホワイトニングによって関係を特定する方法を指摘しています。プレホワイトニングは、相互相関構造を特定する前に、相関構造を調整します。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。現在、時系列間の関係の検出は、同時関係だけでなく、遅れている可能性のある関係の調査にも拡張されています。続いて、いずれかのシリーズが異常(1回限りのイベント)の影響を受けている場合は、これらの1回限りの歪みを調整して分析をロバスト化する必要があります。時系列の文献は、構造をより明確に特定するために、事前ホワイトニングによって関係を特定する方法を指摘しています。プレホワイトニングは、相互相関構造を特定する前に、相関構造を調整します。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。現在、時系列間の関係の検出は、同時関係だけでなく、遅れている可能性のある関係の調査にも拡張されています。続いて、いずれかのシリーズが異常(1回限りのイベント)の影響を受けている場合は、これらの1回限りの歪みを調整して分析をロバスト化する必要があります。時系列の文献は、構造をより明確に特定するために、事前ホワイトニングによって関係を特定する方法を指摘しています。プレホワイトニングは、相互相関構造を特定する前に、相関構造を調整します。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。いずれかの系列が異常(1回限りのイベント)の影響を受けている場合は、これらの1回限りの歪みを調整して分析をロバスト化する必要があります。時系列の文献は、構造をより明確に特定するために、事前ホワイトニングによって関係を特定する方法を指摘しています。プレホワイトニングは、相互相関構造を特定する前に、相関構造を調整します。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。いずれかの系列が異常(1回限りのイベント)の影響を受けている場合は、これらの1回限りの歪みを調整して分析をロバスト化する必要があります。時系列の文献は、構造をより明確に特定するために、事前ホワイトニングによって関係を特定する方法を指摘しています。プレホワイトニングは、相互相関構造を特定する前に、相関構造を調整します。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。キーワードは構造を識別することでした。このアプローチは、次の「有用なモデル」に簡単につながります。

Y(T)= -194.45
+ [X1(T)] [(+ 1.2396+ 1.6523B ** 1)]コホータ

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

これは、1.2936の現代的な関係と1.6523の遅延効果を示唆しています。異常な活動が確認された年が数年あったことに注意してください。(1975,2001,1983,1999,1976,1985,1984,1991 and 1989)。長年の調整により、これら2つのシリーズ間の関係をより明確に評価できます。

予測することに関して

XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + wとして表現されるモデル[r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+定数

右側の定数は-194.45です。

COHORTA 0 1.239589 X(39)* 78.228616 = 96.971340

COHORTA 1 1.652332 X(38)* 77.983000 = 128.853835

I〜L00030 0 -2.475963 X(39)* 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

コホータのARIMAモデルから取得した、期間39(78.228616)でのCohortAの予測ともちろん予測を行うために必要な係数は4つだけです。


4
38年のうち9つは「異常な」活動を示していますか?(どうやら)25のパラメータを持つモデルでは?!その解釈に何か問題があります。これらすべてのパルスとレベルシフトは別として、コホートbの傾向にある非線形成分をまだ見つけましたか?
whuber

2
右の列の数字は何ですか(3、30、29、11など)?これらはデータの説明の一部であるように見えるため、パラメーターでもあります。それらを数えない場合でも、14のパラメーターを使用して38の値を説明することは、特に「傾向があるか」という質問の場合は、過度に思われます。それについて、トレンドは正確に何ですか?これらすべての見積もりの​​どこでそれを掘り下げるのですか?医師があなたに近づいて、「わかりました、1972年以来コホートBの患者のために何が達成されましたか」と尋ねるなら、あなたは1つの明確な文章で彼らに言うことができますか?
whuber

2
「非常に強力な予測」について:モデルの意味を誤解しているかもしれませんが、一般に、データの4分の1を「異常」として識別し、「調整」を必要とする方法(時系列など)をより詳しく説明すると、 「過剰装備」および「不必要に複雑」。コホートBにトレンドがないというあなたの主張は単に信じられないほどです。
whuber

2
@Adam、この分析は基本的に10個の「パルス」に含まれる変動性に関する情報を無視するため、予測の周りに配置する予測バンドは非常に楽観的(きつすぎる)になります。さらに、すべてのデータを含むより深い分析では(前半のみを含む私の例示的な分析とは異なり)、傾向のわずかな減少と一致する非線形成分が検出され、それもここでは検出されません。予測よりも重要なのは、2000〜2001年の影響を理解することです。それが繰り返された場合、すべての予測が誤っている可能性があります。
whuber

1
@whuber確かにすべての専門用語を知っているわけではありませんが、あなたの説明にはかなりの意味があります。どうもありがとう。
アダム

-1

この回答にはいくつかのグラフィックが含まれていました 有用なモデルからの残差![] [1]

介入の浄化された実績モデル残差のacfここに画像の説明を入力してください CohortBの適合と予測 モデルの残差実際の適合と予測

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.