分類入力のシリーズ次元削減
私は、結果変数がバイナリで入力が時系列である予測モデルを構築しようとしています。より具体的にするために、モデルは、過去60日間に会社で費やした金額に基づいて、顧客が解約するかどうか(会社を去る、1または0としてコード化)を予測します。したがって、データは行ごとに1人の顧客であり、列は結果因子(1または0)であり、時間t-1、t-2 .... t-60で費やされた金額の60の追加列です。 ここにいくつかのサンプルデータがあります: #create the data a series of length 60 and a class ID sc <- read.table("http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data", header=F, sep="") #binary class lable classId <- as.factor(c(rep(0,300), rep(1,300))) newSc <- data.frame(cbind(classId, sc)) newSc$ID<-seq(1,600,1) 実際のモデルには、顧客ごとにこれらのシリーズの多くがある可能性があるため、シリーズのデータの次元を減らす必要があります。たとえば、60の値を使用する代わりに、これを一握りに減らす必要があります。もちろん、系列の平均値、最小値、最大値などを使用できますが、離散フーリエ変換の使用について読んでいます。 質問: RのDFFTは私の目的に使用する適切な方法ですか?それがどのように機能するかについてのあらゆる情報がいただければ幸いです。 このR関数が正しいと仮定して、次元削減を実現するために最も意味のある係数だけをどのように抽出しますか? 追加:次元削減にDFFTを使用することは賢明な選択ではないというコンセンサスがあるようですが、データマイニングでは、この関数、DWTおよびSVDがすべて一般的に使用されているようです: 20ページから始まる時系列マイニング。