特徴抽出手法-データシーケンスの要約


11

シーケンスであるいくつかの予測変数があるモデル(分類または回帰)を構築することがよくあり、モデルに予測子として含めるために可能な限り最良の方法でそれらを要約するための手法の推奨事項を見つけようとしています。

具体的な例として、顧客が次の90日間(tからt + 90の間のいつでも、したがってバイナリの結果)に会社を去るかどうかを予測するモデルが構築されているとします。利用可能な予測子の1つは、期間t_0からt-1までの顧客の財政収支のレベルです。たぶん、これは過去12か月間の毎月の観測値(つまり、12の測定値)を表します。

このシリーズから機能を構築する方法を探しています。平均、高、低、標準偏差などの各顧客シリーズの説明を使用し、OLS回帰を当てはめて傾向を取得します。彼らの特徴を計算する他の方法はありますか?変化または変動性の他の測定?

追加:

以下の応答で述べたように、動的タイムワーピング(DTW)を使用して、結果の距離行列で階層的クラスタリングを行うことも検討しました(ただし、ここに追加するのを忘れました)。いくつかのクラスターを作成し、機能としてクラスターメンバーシップを使用します。スコアリングテストデータは、新しいケースとクラスターの重心でDTWが実行されたプロセスに従う必要があります-新しいデータシリーズを最も近い重心に一致させる...

回答:


7

特徴エンジニアリング/抽出に関するケーススタディを集めたボックスが表示されるのが大好きです

これが役立つかどうか教えてください

  1. 時系列データの離散化 http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. 知識発見のための時系列離散化の最適化 https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. SAXの体験:時系列の新しい記号表現 http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. ビッグデータシリーズのインタラクティブな探索のためのインデックス付け http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. 時系列データの構造パターン認識のための一般化された特徴抽出 http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. Rでの動的タイムワーピングアライメントの計算と視覚化:dtwパッケージ https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

ここでしようとしていることは、フィーチャーの次元を減らすことです。次元削減を検索していくつかのオプションを取得できますが、非常に一般的な手法の1つは主成分分析(PCA)です。主成分は、あなたが述べたオプションのように解釈できませんが、すべての情報を要約するのに適しています。


この回答に対する私の懸念は、PCAが系列tとt + 1の間の明確な依存関係を認識しないことです。
B_Miner 2014年

tおよびt + 1依存関係がトレンドまたは季節性である場合-それを抽出し、独立変数と同様に残りを処理することを検討してください。
ディエゴ

2

特徴抽出は、常にアプリケーションに依存するため、常に課題であり、文献ではあまり取り上げられていません。

あなたが試すことができるいくつかのアイデア:

  • 毎日測定された生データ。これは、さまざまな長さのタイムラインを比較できるようにするために、いくつかの影響と追加の前処理(正規化)を伴って、ある程度明白になります。
  • 高いモーメント:歪度、尖度など
  • デリバティブ:進化の速度
  • タイムスパンはそれほど長くはありませんが、自己相関などの時系列分析機能を試す価値はあります。
  • いくつかのカスタマイズされた機能は、週単位でのタイムラインの破壊や、毎週個別にすでに測定している数量の測定などです。次に、非線形分類子は、たとえば最初の週の特徴と先週の特徴を組み合わせて、時間の経過に伴う洞察を得ることができます。

素敵な提案!デリバティブの使用をより具体化できますか?
B_Miner 2014年

私はあなたの最初の発言に完全に同意します。特徴エンジニアリング/抽出に関するケーススタディを集めた箱を見てみたいと思います。格言は、予測モデルのパフォーマンスにおいて、機能の作成が最新の最高のアルゴリズムよりもはるかに重要であることです。
B_Miner 2014年

2

一見すると、時系列(x-12)-xから特徴を抽出する必要があります。考えられる1つのアプローチは、平均、分散などの要約メトリックを計算することです。ただし、そうすると、すべての時系列関連情報が失われます。しかし、曲線の形状から抽出されたデータは非常に役立つ場合があります。著者が時系列クラスタリングのアルゴリズムを提案しているこの記事を一読することをお勧めします。役に立つと思います。このようなクラスタリングに加えて、要約統計を機能リストに追加できます。


リンクをありがとう。また、DTWと階層型クラスタリングの使用も検討していました。DWT用のRパッケージを試しました。jstatsoft.org/v31/i07/paper
B_Miner

1
特にn個のクラスターを作成し、クラスターメンバーシップを機能として使用することを検討しました。
B_Miner
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.