シーケンスであるいくつかの予測変数があるモデル(分類または回帰)を構築することがよくあり、モデルに予測子として含めるために可能な限り最良の方法でそれらを要約するための手法の推奨事項を見つけようとしています。
具体的な例として、顧客が次の90日間(tからt + 90の間のいつでも、したがってバイナリの結果)に会社を去るかどうかを予測するモデルが構築されているとします。利用可能な予測子の1つは、期間t_0からt-1までの顧客の財政収支のレベルです。たぶん、これは過去12か月間の毎月の観測値(つまり、12の測定値)を表します。
このシリーズから機能を構築する方法を探しています。平均、高、低、標準偏差などの各顧客シリーズの説明を使用し、OLS回帰を当てはめて傾向を取得します。彼らの特徴を計算する他の方法はありますか?変化または変動性の他の測定?
追加:
以下の応答で述べたように、動的タイムワーピング(DTW)を使用して、結果の距離行列で階層的クラスタリングを行うことも検討しました(ただし、ここに追加するのを忘れました)。いくつかのクラスターを作成し、機能としてクラスターメンバーシップを使用します。スコアリングテストデータは、新しいケースとクラスターの重心でDTWが実行されたプロセスに従う必要があります-新しいデータシリーズを最も近い重心に一致させる...