時系列分類の機能


43

可変長時系列に基づく(マルチクラス)分類の問題、つまり、関数 、に依存しない固定サイズ の選択された特徴セットによるタイムセリエのグローバル表現、 そしてこの機能セットで標準の分類方法を使用します。 予測、つまり予測に興味ないF X T= Y [ 1 .. K ]TV I D T φ X T= V 1... vのDRxはT + 1

f(XT)=y[1..K]for XT=(x1,,xT)with xtRd ,
viDT
ϕ(XT)=v1,,vDR ,
xT+1。たとえば、人の性別を予測するために人の歩き方を分析する場合があります。

考慮すべき標準機能は何ですか? たとえば、セリエの平均分散(またはより高次のモーメント)を使用し、セリエの離散フーリエ変換(または離散ウェーブレット変換)のある間隔に含まれるエネルギーのように、周波数領域を調べることもできます。

回答:


45

シンプルな統計機能

  • 各次元の平均d
  • 標準偏差の寸法d
  • 次元の歪度尖度および高次モーメントd
  • 最大値と最小

時系列分析関連機能

  • 各次元と自己相関の間の相互相関dd×d1 d
  • 注文集積自己回帰(AR)、(I)と推定された平均(MA)部移動のARIMAのモデルを
  • ARパーツのパラメーター
  • MAパーツのパラメーター

周波数領域関連の機能

DFTおよびDWTのエネルギー保存機能の研究については、Morchen03を参照してください

  • 周波数ピーク振幅でのDFTのためにトレンド除去寸法dk d
  • k -quantilesこれらのDFTの

1
エミール、この質問は私がちょうど提起したものに似ています(stats.stackexchange.com/questions/51475/…)。DFT機能のRコードを投稿できますか?
B_Miner

可変長時系列のシェイプレットに基づく方法はありますか?
シモーネ

8

エミール、あなたの答えにリストされている機能はかなり良い出発点だと思いますが、いつものように、あなたの問題についてのドメインの専門知識(または少なくとも長い間考えている)は等しく重要だと思います

信号の導関数(または積分)から計算された特徴を含めることを検討できます。たとえば、急加速/減速は、事故が発生しやすい運転のかなり良い予測因子であると思います。その情報は明らかに位置信号にまだ存在していますが、それほど明確ではありません。

また、フーリエ係数をウェーブレットまたはウェーブレットパケット表現に置き換えることを検討することもできます。ウェーブレットの主な利点は、周波数と時間の両方でフィーチャをローカライズできることです。一方、従来のフーリエ係数は時間のみに制限されます。これは、データに不規則にオン/オフを切り替えるコンポーネントが含まれている場合や、フーリエ法で問題となる可能性のある方形波のようなパルスがある場合に特に便利です。


6

他の回答が示唆したように、潜在的な機能として使用できる膨大な数の時系列特性があります。平均などの単純な特徴、ARモデルの係数などの時系列関連の特徴、または拡張ディッキーフラー仮説検定の検定統計量などの高度に洗練された特徴があります。

可能な時系列機能に関する包括的な概要

Pythonパッケージtsfreshは、これらの機能の抽出を自動化します。そのドキュメントでは、計算されたさまざまな機能について説明しています。計算された機能を含むページはこちらで見つけることができます。

免責事項:私はtsfreshの著者の一人です。


5

手作業で設計された機能を抽出するための古典的なアプローチを使用する代わりに、オートエンコーダを利用することをお勧めします。オートエンコーダーは、ディープラーニングアーキテクチャの特徴抽出において重要な役割を果たします。

、関数を学習しようとします。言い換えると、に似たを出力するために、恒等関数の近似を学習しようとしてい。X T X Tf(XT)XTX^TXT

恒等関数は、学習しようとする特に些細な関数のようです。しかし、隠れユニットの数を制限するなど、ネットワークに制約を設定することにより、データに関する興味深い構造を発見できます。

特徴抽出

このように、必要なは深部の非表示ユニットの数を制限する場合、ディープ層の出力値と同等になります。ϕ(XT)=v1,,vDRD

さらに、多くのフレーバーのオートエンコーダーを使用して、問題に対する最適なソリューションを見つけることができます。


4

リンクされた論文は、別の文脈で多かれ少なかれ同じ問題に関心があるため、いくらか啓発されます。

論文の要約(インターネットアーカイブ内)

紙のPDF


1

時系列の長さに応じて、通常のアプローチはデータをセグメントにエポックすることです(10秒など)。

ただし、多くの場合、時系列をセグメントに分割する前に、フィルタリングやアーチファクト除去などの前処理を実行する必要があります。次に、周波数に基づいたもの(各エポックに対してFFTを取得)、時間(例えば、そのエポックの時系列の平均、分散など)、または形態(信号の形状など)に基づくさまざまな特徴を計算できます。 /エポックごとの時系列)。

通常、時系列/信号のセグメント(エポック)を分類するために使用される機能はドメイン固有ですが、ウェーブレット/フーリエ解析は、それ自体の機能ではなく、周波数/時間-周波数ドメインで信号を調べることができるツールです。

分類問題では、各エポックに「happy」や「sad」などのクラスラベルがあります。次に、各エポックに対して計算された6つの特徴を使用して「happy」エポックと「sad」エポックを区別する分類器をトレーニングします。

各時系列が分類の単一のケースを表す場合、時系列のすべてのサンプルにわたって各特徴を計算する必要があります。ここで、FFTは、信号が線形時不変(LTI)である場合、つまり、信号が時系列全体で静止していると見なされる場合、信号が対象の期間で静止していない場合にのみ関連します。より適切な。このアプローチは、各時系列が1つの特徴ベクトルを生成し、分類の1つのケースを構成することを意味します。


私は常に、時系列、自然に連続したプロセスを個別の期間(またはエポック)に分割すると、情報が失われると感じてきました。シリーズに自然なエポックがない限り、どのようにしてエポックを選択しますか?希望する結果に適合する可能性のあるエポックを見つけることができます。
Cam.Davidson.Pilon

1
エポックがすべての結果に適しているかどうかはわかりませんが、非定常信号の実際の問題については、何らかの方法で時間変動を考慮する必要があります(信号/時系列が分析的に適切に記述されているか、線形時間不変である場合これは必要ありません)。エポックの長さもドメイン固有ですが、通常、対象の期間(エポック)の下で信号が静止するように十分に短く選択されます。
-BGreene

BGreene、分類で使用される特徴を選択するために一連のエポックに分割することの利点は何ですか?このパーティション分割は、後の計算(つまりFFT)のヘルパーと見なされますが、機能自体の選択に関連するものとは見なされません。たぶん、あなたが言った「形態」に関連しているのでしょう。
エミール

エポックへの分割は、機能の選択とは関係ありません。信号が長い場合(例:100Hzでサンプリングされた10時間の録音)、信号が時間とともにどのように変化するかを調べるには、エポックに分割する必要があります。分類問題では、各エポックに「happy」や「sad」などのクラスラベルが付けられます。次に、各エポックに対して計算された6つの特徴を使用して「happy」エポックと「sad」エポックを区別する分類器をトレーニングします。
BGreene

Ok :)それは間違いなく私の元の質問とは無関係です。クラスがセリエ全体にラベルを付ける場合を考えます。質問を編集して、明確な例を追加します。
エミール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.