時系列ベースの異常検出アルゴリズムへのウェーブレットの適用


25

私はを通じて、私のように動作し始めてきたアンドリュー・ムーアによって統計的データマイニングチュートリアル(非常に誰が最初にこの分野に進出を推奨します)。「時系列ベースの異常検出アルゴリズムの概要」というタイトルの非常に興味深いPDFを読むことから始めました。ムーアは、病気の発生を検出するアルゴリズムの作成に使用される多くのテクニックを追跡します。スライドの途中の27ページで、彼は、アウトブレイクの検出に使用される他の多くの「最先端の方法」をリストしています。最初にリストされているのはウェーブレットです。ウィキペイダは、ウェーブレットを次のように説明しています

ゼロから始まり、増加し、その後ゼロに戻る振幅を持つ波状の振動。通常、「簡単な振動」として視覚化できます。

統計への適用については説明していません。私のGoogle検索では、ウェーブレットが統計または主題に関する完全な書籍にどのように関連するかを知っている高度な学術論文が生成されます。

Mooreがチュートリアルで他のテクニックを説明するのと同じように、時系列の異常検出にウェーブレットがどのように適用されるかについての基本的な理解をお願いします。誰かが、ウェーブレットを使用した検出方法の仕組みの説明や、その問題に関する理解可能な記事へのリンクを提供できますか?

回答:


19

ウェーブレットは、信号の特異点を検出するのに役立ちます(たとえば、ここの論文(図については図3を参照)およびこの論文で言及されている参考文献を参照してください)。

ここでの考え方は、連続ウェーブレット変換(CWT)には、周波数に沿って伝播する最大線があるということです。つまり、線が長いほど特異性が高くなります。論文の図3を参照して、意味を確認してください!その論文に関連する無料のMatlabコードがあることに注意してください


さらに、DISCRETE(前の例は連続的なものです)ウェーブレット変換(DWTが統計学者にとって興味深い理由を詳しく説明するヒューリスティックスを提供できます(非網羅性の言い訳):

  • ウェーブレット変換によってスパースシーケンスに変換される(リアルな(ベソフ空間))信号の幅広いクラスがあります。(圧縮特性
  • ほぼ無相関の特徴(非相関性プロパティ)を持つシーケンスに変換される(準定常)プロセスの幅広いクラス
  • ウェーブレット係数には、時間と周波数(異なるスケール)でローカライズされた情報が含まれます。(マルチスケールプロパティ)
  • 信号のウェーブレット係数は、その特異点に集中します

19

あなたが参照するプレゼンテーションのリストは私にはかなりfairly意的であり、使用されるテクニックは実際に特定の問題に依存します。ただし、これにはカルマンフィルターも含まれていることに注意してください。そのため、意図した使用法はフィルター手法であると思われます。ウェーブレット変換は一般に信号処理の対象になり、非常にノイズの多いデータの前処理ステップとして使用されることがよくあります。例としては、ChenとZhanによる「マルチスケール異常検出」ペーパーがあります(以下を参照)。アプローチは、元のノイズの多いシリーズではなく、異なるスペクトルで分析を実行することです。

ウェーブレットは、時間と周波数の両方でローカライズされるという利点がありますが、多くの場合、連続時間フーリエ変換と比較されます。ウェーブレットは、信号圧縮と平滑化(ウェーブレット収縮)の両方に使用できます。最終的に、ウェーブレット変換が適用された後、さらに統計を適用することは理にかなっています(たとえば、自己相関関数を調べることによって)。異常検出に役立つ可能性のあるウェーブレットのもう1つの側面は、ローカリゼーションの効果です。つまり、不連続性は、その近くにあるウェーブレットにのみ影響します(フーリエ変換とは異なります)。これの1つの用途は、局所的に定常な時系列を見つけることです(LSWを使用)。

Guy Nasonには、実用的な統計アプリケーションをさらに詳しく調べたい場合にお勧めする素晴らしい本があります。「Rを使用した統計のウェーブレット手法」です。これは、特にウェーブレットを統計分析に適用することを目的としており、すべてのコードとともに多くの実世界の例を提供しています(wavethreshパッケージを使用)。Nasonの本は、「異常検出」を具体的に扱っていませんが、一般的な概要を提供する提督の仕事をしています。

最後に、ウィキペディアの記事は多くの優れた入門的な参考資料を提供しているので、詳しく調べる価値があります。

[補足:変化点検出のための優れた最新の手法を探している場合、特定の分野でウェーブレットを使用する十分な理由がない限り、ウェーブレットメソッドで時間を費やす前にHMMを試すことをお勧めします。これは私の個人的な経験に基づいています。もちろん、考えられる他の多くの非線形モデルがあるので、それは本当にあなたの特定の問題に依存します。]


1
Hidden Markov Modelsが異常検出にどのように使用されるかはわかりませんが、知りたいと思います。私にとって特に不明確な部分は、意味のある遷移確率を持つ正しい基礎となるステートマシンを作成する方法です(「異常」と「異常ではない」のような単純な遷移確率を持つ2つの状態でない限り)。
ジョンロバートソン

6

最も一般的に使用され実装されている離散ウェーブレット基底関数(Robinの回答で説明されているCWTとは異なる)には、異常検出に役立つ2つの優れたプロパティがあります。

  1. コンパクトにサポートされています。
  2. それらは、サポートによって決定される通過帯域を持つ帯域通過フィルターとして機能します。

これが実際的に意味することは、離散ウェーブレット分解は、さまざまなスケールと周波数帯域にわたる信号の局所的な変化を見るということです。(たとえば)長期間にわたって低振幅のシフトを表示する関数に大きな振幅の高周波ノイズが重畳されている場合、ウェーブレット変換はこれら2つのスケールを効率的に分離し、他の多くのベースラインシフトを確認できますテクニックは見逃します。このベースラインの変化は、病気の発生や関心のある他の変化を示唆する可能性があります。多くの方法で、分解自体をより滑らかに扱うことができます(ノンパラメトリック推定でウェーブレット係数の効率的な収縮についてはかなりの作業が行われています。たとえば、Donohoのウェーブレットに関するほとんどすべてを参照してください)。純粋な周波数ベースの方法とは異なり、コンパクトなサポートは、非定常データを処理できることを意味します。純粋に時間ベースの方法とは異なり、いくつかの周波数ベースのフィルタリングが可能です。

実際には、異常や変化点を検出するために、離散ウェーブレット変換(おそらく、読んだ人に応じて「Maximum Overlap DWT」または「shift invariant DWT」として知られるバリアント)をデータに適用し、より低い周波数の係数セットで、ベースラインに大幅なシフトがあるかどうかを確認します。これにより、日々の騒音の下で長期的な変化が発生していることがわかります。PercivalとWalden(以下の参考文献を参照)は、このようなシフトが有意であるかどうかを調べるために使用できる統計的に有意な係数のいくつかのテストを導き出します。

離散ウェーブレットの優れた参考資料は、PercivalとWaldenの「時系列分析のためのウェーブレット手法」です。良い入門作品は、Burrus、Gopinath、およびGuoによる「ウェーブレットとウェーブレット変換の入門、入門書」です。エンジニアリングのバックグラウンドから来ているなら、「エンジニアと科学者のためのウェーブレットの要素」は信号処理の観点からの良い紹介です。

(ロビンのコメントを含むように編集)


あなたが最初に言及する点は一般的に間違っています。ダウベチーの本の中でbooks.google.fr/…の章の最初の文を読むことをお勧めします。あなたが私の答えを読んでいた場合に加えて、私はすでに...私の答えの第二の部分にDWTの素晴らしい特性をmentionned
ロビンジラール

最初の点まで、あなたは正しい。「最も一般的に使用/実装された離散ウェーブレット基底関数」と言っておくべきでした。それを反映するように編集します。2番目のポイントについて、いくつかのCWT(ほとんどの場合、DOGウェーブレットまたは関連するRickerウェーブレット。たとえば、Gaborウェーブレットのようなものは、記述した動作を提供しません)が特異性の異常を検出する方法について適切な回答を提供しました。他の種類の異常を検出するためにDWTをどのように使用できるかについて、類似の説明をしようとしていました。
リッチ

あなたが言及する2番目の点も間違っている可能性があります:ウェーブレットサポート(それがコンパクトである場合)は、周波数局在化ではなく、ウェーブレットの時間的局在化に関する情報を提供しています。
ロビンジラール

離散ウェーブレット-または少なくとも実装され一般的に使用されているウェーブレットの大多数-は、通常、コンパクトなサポート制約の下で有用な周波数ベースのプロパティを持つように設計されています。たとえば、Daubechiesの消失モーメント条件は、通過帯域の平坦性とほぼ同等です。ウェーブレットの周波数定位特性は、通常、係数をスパース表現にし、「信号+加法的ゼロ平均ノイズ」の仮定の下でノイズ分散の推定を可能にするものです。
リッチ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.