時系列で欠落データを埋める方法は?


16

私は2年間にわたって10分ごとに記録された汚染データの大規模なセットを持っていますが、データにはいくつかのギャップがあります(一度に数週間続くものを含む)。

データは非常に季節性があるようで、値に大きな変化がなく、データポイントが低い夜と比較して、日中は大きな変動があります。

私は黄土モデルを昼と夜のサブセットに別々に適合させ(それらの間に明らかな違いがあるため)、欠損データの値を予測し、これらのポイントを埋めることを検討しました。

これがこの問題に対処する適切な方法であるかどうか、また予測されたポイントに局所的な変動を追加する必要があるかどうかは疑問でした。

回答:


21

答えは、あなたの研究デザインに依存します(例えば、横断的時系列?コホート時系列、シリアルコホート時系列?)。Honaker王には、断面の時系列(あなたの仮定に依存して、連続コホートの時系列の可能性の有用な)のために有用であるアプローチを開発したRのパッケージアメリアIIこのようなデータを帰するため。一方、Spratt&Co。いくつかのコホート時系列設計で使用できる別のアプローチについて説明していますが、ソフトウェアの実装はまばらです。

断時系列の設計は(パネル試験デザイン別名)(例えば、同じ変数、楽器などの人口(s)は、繰り返しサンプリング(さ)したもので(例えば、毎年)、同じ研究プロトコルを使用しています)。サンプリング戦略が代表的なものである場合、これらの種類のデータは、研究の各母集団に対するこれらの変数の分布の年次画像(参加者または被験者ごとに1つの測定)を生成します。

コホート時系列設計(別名繰り返しコホート研究デザイン、縦断的研究デザインは、また時々パネル試験デザインと呼ばれる)の分析の個々のユニットが一度サンプリングし、時間の長い期間にわたって続くものです。個人は、1つ以上の集団から代表的な方法でサンプリングされます。ただし、代表的なコホート時系列サンプルは、時間の経過とともに、少なくとも人口ターゲット集団の代表としてますます貧弱になります。これは、人々がターゲット集団に生まれたり、高齢化したり、死亡したり、高齢化するためです移民と移民と。

シリアルコホート時系列設計(別名繰り返し、マルチ、および複数のコホート、またはパネルの研究デザインは)人口(s)が繰り返しサンプリング(さ)したもので(例えば、毎年)、同じ研究プロトコルを使用して(ありますたとえば、同じ変数、手段など)、変化率の測定値を作成するために、期間中(たとえば、年中)の2つの時点で母集団内の個々の分析単位を測定します。サンプリング戦略が代表的なものである場合、これらの種類のデータは、研究の各母集団について、これらの変数の変化率の年間像を生み出します。

参照
Honaker、J。およびKing、G。(2010)。時系列のクロスセクションデータに欠損値について何をしますAmerican Journal of Political Science、54(2):561–581。

Spratt、M.、Carpenter、J.、Sterne、JAC、Carlin、JB、Heron、J.、Henderson、J。、およびTilling、K.(2010)。縦断的研究における複数代入の戦略American Journal of Epidemiology、172(4):478–4876。


お返事ありがとうございます。私はこのタイプの研究に比較的新しく、以前これらの用語に出会ったことがないので、異なるタイプの時系列(コホート、クロスセクションなど)を定義できるかどうか疑問に思っていました。
Jamesm131

@ Jamesm131編集した回答をご覧ください。
アレクシス

7

RでimputeTSパッケージを使用できます。あなたが取り組んでいるデータは単変量時系列であると信じています。imputeTSパッケージは(単変量)時系列代入に特化しています。いくつかの異なる代入アルゴリズムの実装を提供します。代入アルゴリズムを超えて、このパッケージは欠損データ統計のプロットおよび印刷機能も提供します。不足値の状態空間モデルを調べることをお勧めします。このパッケージは分析に役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.