入力が携帯電話アカウントの最初の21日間の時系列音声使用データ(秒単位)である時系列分類問題に取り組んでいます。対応するターゲット変数は、そのアカウントが35〜45日の範囲でキャンセルされたかどうかです。したがって、これはバイナリ分類問題です。
これまでに試したすべての方法から(さまざまな程度で)非常に悪い結果が得られます。最初に、k-NN分類(さまざまな変更を加えて)を試しましたが、非常に悪い結果が得られました。これにより、時系列から特徴を抽出することになりました。つまり、平均、分散、最大、最小、合計ゼロ日、合計後続ゼロ日、前半平均と後半平均の差などであり、最も予測的な特徴は合計であるように見えました。ゼロ日と合計末尾ゼロ日(いくつかの分類アルゴリズムを使用)。これは最高のパフォーマンスを示しましたが、パフォーマンスはまだあまり良くありませんでした。
次の戦略は、トレーニングセットのネガティブインスタンスが非常に少ないため、オーバーサンプルすることでした。これは、より正確なキャンセル予測をもたらしましたが、より多くの偽陽性を犠牲にしています。
おそらく、時系列の使用状況データ自体は単純にあまり予測的ではないと考え始めています(常識では予測すべきであるとされていますが)。おそらく、私が考慮していない潜在的な変数がいくつかあります。データを見ると、奇妙な動作も見られます。つまり、一部の例では使用量がほとんどないか、減少している(またはまったくない)場合があり、キャンセルされない場合や、使用量が増加してキャンセルされる場合があります。おそらく、この矛盾した振る舞いは、分類器の非常に明確な決定境界を生成しません。
エラーの別の考えられる原因は、多くのトレーニング例が非常にまばらであるという事実です(つまり、使用量がゼロの状態で何日も)。私がまだ試していないアイデアの1つは、時系列をセグメントに分割し、いくつかの機能をそのように生成することですが、あまり望んでいません。