多変量時系列の分類


9

約40のディメンションを持つ時系列(8ポイント)で構成されるデータのセットがあります(したがって、各時系列は8 x 40です)。対応する出力(カテゴリの可能な結果)は0または1です。

複数の次元を持つ時系列の分類子を設計するための最良のアプローチは何でしょうか?

私の最初の戦略は、それらの時系列から特徴を抽出することでした:平均、標準、各次元の最大変動。RandomTreeForestのトレーニングに使用したデータセットを取得しました。これの全体的な素朴さを認識していて、悪い結果を得た後、私は今、より改善されたモデルを探しています。

私のリードは次のとおりです。各次元のシリーズを(KNNアルゴリズムとDWTを使用して)分類し、PCAで次元を減らし、多次元カテゴリに沿って最終的な分類子を使用します。MLは比較的新しいので、完全に間違っているかどうかはわかりません。


あなたがやっていることはかなり良いアプローチです。データセットにはいくつのサンプルがありますか?
Kasra Manshaei

私は約500 000の時系列を持っています(各時系列は8タイムスタンプ* 40ディメンションであることを思い出してください)
AugBar

320機能をそのまま使用してみましたか?
500の

@Jan van der Vegt:ニューラルネットワークを使用してその方法を試しましたが、結果はそれほど説得力がありませんでした。前処理なしで生データを使用しました。分類子にフィードするために、320フィーチャーのrawに事前にどの操作を適用する必要がありますか?
AugBar

1
ニューラルネットワークの場合、重要な機能の範囲によっては、入力を正規化することが重要です。しかし、私はちょうどRFに生の機能を供給し、どのようにうまく機能していることがわかり、あなたは簡単にそれから何かを得ることができるかどうかを確認するために以下のチューニングを必要とするだろう
ヤン・ファン・デア・Vegt

回答:


5

あなたは正しい軌道に乗っています。時間領域と周波数領域の両方で、さらにいくつかの特徴の計算を見てください。サンプル数>>機能数である限り、オーバーフィットする可能性はほとんどありません。同様の問題に関する文献はありますか?もしそうなら、それは常に素晴らしい出発点を提供します。

xgboostやLightGBMなどのブーストされたツリー分類器を試してください。ハイパーパラメーターを調整する方が簡単な傾向があり、デフォルトのパラメーターで良い結果を提供します。ランダムフォレストとブーストされたツリー分類器はどちらも機能の重要度を返すことができるため、問題に関連する機能を確認できます。機能を削除して、共分散をチェックすることもできます。

最も重要なことですが、結果が予想外に悪い場合は、問題が適切に定義されていることを確認してください。結果を手動で確認して、パイプラインにバグがないことを確認します。



2

以下のように、データセットにさらに機能を追加できます。

  1. データが非常に非線形のプロセスからのものである場合は、noldsパッケージを試すことができます。

  2. max、min、mean、skew、kurtosis、および可能であればローリング統計。

私は同様のものに取り組んでおり、関連する質問をしました


1

Jan van der Vegtに同意します。標準化(例:[-1、1])または正規化N(0、1)とアクティベーション関数の組み合わせは、ニューラルネットワークでは非常に重要です。ピチャイドバルーンチョティクルの論文をチェックします。「人工ニューラルネットワークを使用した洪水予測」でANNの内外を調べます。非常に興味深い注意事項があります。とにかく、私は最初にそれを使わずに試すことに慣れていますが、結果が満足のいくものではない場合、私はどちらかで試してみることに慣れています。それが役立つかどうかはわかりませんが、RパッケージTSclustと関連ドキュメントを確認します。著者はとても親切で、そうするために特定のモデルを見つけるのを手伝います。彼らは時系列分析のエキスパートです!幸運を!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.