カルマンフィルターの尤度が、より滑らかな結果ではなくフィルター結果を使用して計算されるのはなぜですか?


11

カルマンフィルターを非常に標準的な方法で使用しています。システムは、状態方程式および観測方程式ます。xt+1=Fxt+vt+1yt=Hxt+Azt+wt

教科書は、カルマンフィルターを適用し、「一歩先の予測」(または「フィルターされた推定」)を取得した後、それらを使用して尤度関数を計算する必要があることを教えています。x^t|t1

fyt|It1,zt(yt|It1,zt)=det[2π(HPt|t1H+R)]12exp{12(ytHx^t|t1Azt)(HPt|t1H+R)1(ytHx^t|t1Azt)}

私の質問は、「平滑化された推定」\ hat {x} _ {t | T}ではなく、「フィルターされた推定」\ hat {x} _ {t | t-1}を使用して尤度関数が計算されるのはなぜですか?ありません\帽子{X} _ {T | T}状態ベクトルのより良い推定?x^t|t1x^t|Tx^t|T


タイトルがよりわかりやすくなるように編集しました。
Juho Kokkala 2017年

回答:


5

質問に答えるには、平滑化密度を使用できます。しかし、そうする必要はありません。Jarle Tuftoの答えには、使用している分解があります。しかし、他にもあります。

カルマン再帰の使用

ここでは、可能性を

f(y1,,yn)=f(y1)i=2nf(yi|y1,,yi1).

ただし、平均と分散は、常に一般的に確率分布を完全に定義するわけではありません。以下は、フィルター分布から条件付き尤度への分解に使用する分解です。:f y i | y 1y i 1f(xi1|y1,,yi1)f(yi|y1,,yi1)

(1)f(yi|y1,,yi1)=f(yi|xi)f(xi|xi1)f(xi1|y1,,yi1)dxidxi1.

ここで、 は状態遷移密度...モデルの一部であり、は観測密度...モデルの一部です。あなたの質問では、これらをそれぞれおよびます。同じことです。f y i | x ix t + 1 = F x t + v t + 1 y t = H x t + A z t + w tf(xi|xi1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt

1ステップ先の状態予測分布を取得すると、それは。再度統合すると、(1)が完全に取得されます。あなたはあなたの質問にその密度を完全に書き留めます、そしてそれは同じことです。f(xi|xi1)f(xi1|y1,,yi1)dxi1

ここでは、確率分布の分解とモデルに関する仮定のみを使用しています。この尤度計算は正確な計算です。これをより良くも悪くもするために使用できる裁量はありません。

EMアルゴリズムの使用

私の知る限り、このような状態空間モデルで直接尤度を評価する方法は他にありません。ただし、別の関数を評価することで、最尤推定を行うことができます。EMアルゴリズムを使用できます。期待ステップ(E-Step) ここでf y 1y nx 1x n

f(x1,,xn|y1,yn)logf(y1,,yn,x1,,xn)dx1:n=Esmooth[logf(y1,,yn,x1,,xn)].
f(y1,,yn,x1,,xn)は「完全なデータ」の可能性であり、関節平滑化密度に関してはそのログの期待値をとっています。よく起こるのは、この完全なデータ尤度のログをとっているため、項が合計に分割され、期待演算子の線形性のために、限界平滑化分布(1あなたはあなたの質問で言及します)。

他のもの

私は、EMが可能性を最大化するための「より安定した」方法であると読んだことがありますが、この点について十分に議論されたことはありません。これについてはこれ以上詳しく調べません。これらのアルゴリズムはどちらも、ローカル/グローバル最大値の試練を回避しません。私は個人的にカルマンを習慣より頻繁に使う傾向があります。

状態の平滑化された推定は、通常、フィルター処理よりも分散が小さいのは事実です。そのため、これについてある程度の直感があっても、実際には状態を使用していません。最大化しようとしている可能性は、州の関数ではありません。


KFとEMの違いは何ですか?彼らは最終的には漠然と同様の方法で同じことを行うことになります。
ミッチ

1
@ミッチはおそらくコメント以上の価値があるものでしょう。それは、KFで使用する汎用オプティマイザー、および使用するEMのタイプによって異なります。よく調べないと確信が持てません。
テイラー

7

一般に、積の規則により、正確な尤度は 状態空間モデルの仮定から、過去の観測を条件とする各の期待値ベクトルと分散行列は、として表すことができます 、 y i E y i | y 1y i 1

f(y1,,yn)=f(y1)i=2nf(yi|y1,,yi1).
yi
E(yi|y1,,yi1)=E(Hxt+Azt+wt|y1,,yi1)=HE(xt|y1,,yi1)+Azt+Ewt=Hx^t|t1+Azt,
Var(yi|y1,,yi1)=Var(Hxt+Azt+wt|y1,,yi1)=HVar(xt|y1,,yi1)H+Varwt=HPt|t1H+R.
したがって、これにより、平滑化された推定値を計算せずに正確な可能性が得られます。

もちろん、実際には未知の状態のより良い推定である平滑化推定を使用できますが、これは尤度関数を与えません。実際には、の観測値を使用して独自の期待値を推定するため、結果の推定値にバイアスが生じる可能性があります。 yi


0

平滑化分布が(通常)使用されない「理由」についてのより良い答えは効率です。原則として、次のように、リーブワンアウトの意味で(平滑化)限界尤度を計算するのは簡単です。観測値jを削除し、残りのデータに対してカルマンスムージングを実行します。次に、見えないy(j)の可能性を評価します。すべてのjについてこれを繰り返します。対数尤度を合計します。これの高速バージョンは、保持されたサンプルの(ランダム化された)ブロック(kフォールドCVなど)で機能します。このスキームでは、必要に応じて測定の更新を任意にスキップできるカルマンフィルター/スムーザーのより一般的な実装が必要です。逆方向/スムージングパスは、測定値(RTSアルゴリズム)にアクセスせず、同じままです。

時系列が「十分に長い」場合、フィルタリングの可能性が最初の過渡現象を「焼き尽くす」ため、これを行うことによる有益な利点はほとんどありません。ただし、データセットが短い場合は、より高価な平滑化の可能性が価値があります。固定ラグスムーザーが中間のソリューションになる可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.