これは簡単な状況です。そのままにしておきましょう。 重要なのは、重要なことに集中することです。
まだ多くの選択肢があり、多くの形式の分析が有効で効果的です。ここで、これらの主要な原則への準拠を推奨できる1つのアプローチを示します。
整合性を維持するために、データを半分に分割します。1972年から1990年までの観測と1991年から2009年までの観測(それぞれ19年)です。モデルを前半にフィットさせ、後半が投影する際にフィットがどの程度うまく機能するかを確認します。これには、後半に発生した可能性のある重要な変更を検出するという追加の利点があります。
有用な説明を取得するには、(a)変更を測定する方法を見つけ、(b)それらの変更に適した最も単純な可能なモデルを当てはめて評価し、より複雑なモデルを繰り返し当てはめて、単純なモデルからの偏差に対応する必要があります。
(a)選択肢はたくさんあります。生データを見ることができます。あなたは彼らの年次差を見ることができます。対数でも同じことができます(相対的な変化を評価するため)。失われた寿命や相対的な平均余命(RLE)を評価できます。または他の多くのもの。いくつか考えた後、RLEを検討することにしました。これは、(参照)コホートAのそれに対するコホートBの平均余命の比率として定義されています。幸いにも、グラフが示すように、コホートAの平均余命は安定して定期的に増加していますRLEのランダムに見えるバリエーションのほとんどは、コホートBの変化によるものです。
(b)最初に考えられる最も単純なモデルは、線形トレンドです。それがどれほどうまく機能するか見てみましょう。
このプロットの濃い青色の点は、フィッティングのために保持されているデータです。薄い金のポイントは後続のデータであり、フィットには使用されません。黒い線はフィットで、傾きは.009 /年です。破線は、将来の個々の値の予測間隔です。
全体的に、適合は良好に見えます。残差(以下を参照)を調べても、サイズ(1972〜1990年のデータ期間中)でサイズに重要な変化は見られません。(平均余命が低かった初期の段階では、それらが大きくなる傾向があったことを示す兆候があります。単純さを犠牲にすることでこの合併症に対処することはできますが、傾向を推定することの利点はそれほどありそうもありません。)ほんのわずかなヒントがあります。一連の相関関係(正の残差の実行と負の残差の実行によって示される)ですが、明らかにこれは重要ではありません。予測バンドを超えるポイントによって示される異常値はありません。
1つの驚きは、2001年に値が突然予測範囲の下限に下がり、そこに留まったことです。かなり突然の大きなことが起こり、持続しました。
これが残差です。これは、前述の説明からの偏差です。
残差を0と比較するため、視覚的な補助として垂直線がゼロレベルに描画されます。繰り返しになりますが、青い点は近似に使用されたデータを示しています。薄い金色のものは、2000年以降の予測下限に近いデータの残差です。
この図から、2000〜2001年の変更の影響は約-0.07であったと推定できます。これは、コホートB内の全寿命の0.07(7%)の突然の低下を反映しています。その低下の後、残差の水平パターンは、以前の傾向は続いたが、新しいより低いレベルにあることを示しています。分析のこの部分は探索的であると考える必要があります。具体的に計画されたわけではありませんが、保持されたデータ(1991-2009)と残りのデータへの適合との驚くべき比較により生じました。
10− 7
より複雑なモデルをこれらのデータに当てはめる理由はないようです。少なくとも、RLEに本物の傾向があるかどうかを推定するためではありません。さらに進んで、推定値を調整するために、データを2001年以前の値と2000年以降の値に分割できます。しかし、仮説テストを実施することは完全に正直ではありません。分割テストが事前に計画されていないため、p値は人為的に低くなります。しかし、探索的な演習として、そのような推定は問題ありません。データからできる限りのことを学びましょう!過剰適合(半ダース以上のパラメーターを使用するか、自動適合技術を使用する場合に発生することはほぼ確実です)、またはデータスヌーピングに注意しないでください:正式な確認と非公式の違いに注意してください(ただし貴重な)データ探索。
要約しましょう:
平均余命(RLE)の適切な測定を選択し、データの半分を保持し、単純なモデルをフィッティングし、残りのデータに対してそのモデルをテストすることにより、次のことを高い信頼で確立しました。それは長い期間にわたって線形に近いです。そして、2001年にRLEが突然持続的に低下した。
私たちのモデルは驚くほど節約的です。初期のデータを正確に説明するには、2つの数値(勾配と切片)だけが必要です。この説明からの明らかではあるが予想外の逸脱を説明するには、3番目(休憩の日付、2001年)が必要です。この3つのパラメーターの説明に関連する外れ値はありません。モデルは、シリアル相関(時系列手法の焦点)の特徴付け、示される小さな個別の偏差(残差)の記述、またはより複雑な近似(2次時間コンポーネントの追加など)の導入によって大幅に改善されることはありません。または、経時的な残差のサイズのモデリング変化)。
トレンドは年間0.009 RLEです。これは、年を重ねるごとに、コホートB内の平均余命に、予想される通常の全寿命の0.009(ほぼ1%)が追加されたことを意味します。研究の過程(37年間)で、37 * 0.009 = 0.34 =全寿命の改善の3分の1になります。2001年の後退により、その増加は1972年から2009年までの全寿命の約0.28に減少しました(その期間中の平均寿命は10%増加しましたが)。
このモデルは改善される可能性がありますが、より多くのパラメーターが必要になる可能性が高く、改善はあまりありません(残差のほぼランダムな動作が証明するため)。そのため、全体として、分析作業がほとんどないため、データのそのようなコンパクトで、有用で、単純な説明に到達することに満足する必要があります。