移動平均は欠落したデータポイントをどのように処理する必要がありますか?


10

ユーザーの体重を日ごとに平均化するプログラムを書いています。5ポイントの移動平均を使用する予定です(当日、前2日と後2日)。場合によっては、データポイントが1〜2日間失われます。これらのケースは通常どのように処理されますか?

(もし私が使えるより良いローパスフィルターがあれば、私は提案が大好きです)


最初に頭に浮かぶのは、移動平均フィルターを使用する前にポイントを補間することです
someguy

3
少なくともより多くのコンテキストがない場合、信号処理の質問よりも実際には統計的な質問のほうが多い。ただし、単純に平均の再計算をスキップし、現在の平均を置換値として使用するか、後続の測定を待って、線形またはその他の方法で補間を試みることができます。
ダニエルRヒックス

他の人が指摘したように、これは通常、フィルタリングされた出力をどのように動作させるかについての検討に基づいて、アプリケーション固有の決定になります。ほとんどの信号処理理論は、等間隔のサンプルに基づいているため、客観的に「正しい答え」と呼ばれるものは得られません。
Jason R

@JasonRその時点でのユーザーの体重をより合理的に推定するためにフィルターをかけます。一部のデータポイントが欠落していることを除いて、データは均一にサンプリングされます(サンプリング頻度= 1 /日)。
アンナ

@アンナ:ええ、なぜデータをフィルタリングしているのか理解しました。ただし、データポイントが欠落しているため、データは均一にサンプリングされていません。したがって、私が述べたように、問題に対する満足のいく理論的な答えを見つけることはほとんどありません。特定のアプリケーションに対して「理にかなっている」と考えるアドホックソリューションがおそらく答えになるでしょう。
Jason R

回答:


4

一般的な印象として、回帰は、選択した移動平均フィルターではなく、欠落した点を自動的にフィッティングすることでより効果的に機能します。

AR(自動回帰フィルター)またはARMAフィルターを使用する場合-過去の入力に基づいてサンプル出力の予測値を持つことができます。

X^[i]=ωkx[i1k]+η

ここで、は予測値です。X^[i]

特にあなたのケースでは、人の体重が特定の範囲持っていることがわかっているとしましょう。値がない場合-2つの異なる置換を適用します。1つはMinで、もう1つはMaxで、使用可能なモデルに基づいて、 2つの極端なケースの結果が得られます。それらの間で何かを選択します。 X [ I - 1 ] X [ I ]Xmax,Xminx[i1]X^[i]

他にもさまざまな選択肢があります-あなたは保つことができます

X [I]=Xのロングターム・サンプル・平均 

X^[i]=X[i1]
または
X^[i]=Long term sample average of X 

本質的には、その値を予測し、それを信号として使用し続けるゲームです。もちろん、予測は元のサンプルとは異なりますが、それはデータがないために支払う代償ではありません。


2
回帰がフィッティングでよりうまく機能すると言うのはなぜですか?ありがとう
Spacey

3

完全なデータの実行がある場合、欠落データを入力するための単純で一般的な方法は、
線形回帰を使用することです。たとえば、5回の実行が1000回あり、欠落がないとします。
1000 x 1ベクトルyと1000 x 4行列Xを設定します。

y       X
wt[0]   wt[-2] wt[-1] wt[1] wt[2]
---------------------------------
68      67     70     70    68
...

回帰により、4つの数値abcdが得られ、最も一致します

wt[0] ~= a * wt[-2]  + b * wt[-1]  + c * wt[1]  + d * wt[2]

1000行のデータの場合 -異なるデータ、異なるabc d。
次に、これらのabcdを使用して、欠落しているwt [0]を推定(予測、補間)します。
(人間の体重の場合、abcdはすべて約1/4になると思います。)

Pythonでは、numpy.linalg.lstsqを参照してください 。

(すべてのレベルで、回帰に関する膨大な数の書籍や論文があります。ただし、補間との関連については、私は良い紹介を知りません;誰か?)



1

最も簡単な方法は、前に来たデータを使用して時系列の「全体」の日付を「予測」することだと思います。次に、この時系列をパラメーター推定に使用できます。(次に、(完了した)時系列全体からの推定パラメーターを使用して欠損値を続行および予測し、収束するまでこれを繰り返します)。ただし、信頼限界は、完成したデータ系列の長さからではなく、実際のデータポイントの数から導出する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.