さまざまな機能を持つデータシリーズからの予測


7

データポイントの機能が等しくない問題を調べています。

各インスタンスは、システム全体でのアイテムの進行を表します。それらの多くはエンドポイントまで進んでおり、他のものはまだ中間段階にあります。ステージ数は既知です(合計10)。各ステージに入る時間があります。重要なのは、彼らが最終段階に到達する時期を予測することです。

これを処理する方法はいくつかあります。決定木はこれを適切に処理できるかもしれません。ステージのエントリ時間が不明な場合でも、ステージのデータから妥当な予測を行うことができます。

誰かが私を正しい方向に向けることができますか?


デシジョンツリーが機能するか、ブールダミー変数を導入して、適用できない機能をマスクすることができます。サイトへようこそ!
Emre、

回答:


1

各欠損値を代入する必要がある場合は、時系列の複数の代入または内挿法を検討できます。例:https : //stackoverflow.com/questions/49308530/missing-values-in-time-series-in-python

目標がステージ10へのエントリ時間を単に予測することであり、中間ステージにいつ到達するかを気にする必要がない場合は、回帰問題を扱うことができます。つまり、ステージ10までの時間を予測するだけです。一部のデータが欠落している通常の教師あり学習問題。唯一の追加手順は、スコアリングするデータと一致するようにトレーニング/テストデータに欠落を作成する必要があることです。

トレーニング/テストデータは、ステージ10までの完全なデータを含むすべてのレコードで構成されます。

このデータ内で交差検証またはトレーニング/テスト分割を使用して、Stg10までの時間を予測する予測モデルを作成します。このデータ内で、Stg1とStg9の間のデータをランダムに空白にしてスコアリングデータセットをシミュレートしますが、予測するラベルが必要なため、Stg10は保持します。ランダムフォレストなどのツリーベースのメソッドを使用します。変数間の依存関係は問題なく、欠落データを処理するためです。

このモデルを使用して、ラベルのないデータ(つまり、Stg10情報がない場所)にスコアを付けます。残りの問題は、ラベル付けされていないデータセット内の完全性のレベルです。Stg9まで満たされていれば問題ありません。彼ら全員がStg1に行く場合、問題があります!したがって、このメソッドをサポートするためにデータに十分な完全性があるかどうかを確認する必要があります。

しかし、それは開始するのに有効な場所であり、目的に十分であることが判明する場合があります。


0

問題を理解できれば 、入力が欠落している分類タスクとして問題を定式化できます。入力の
一部が欠落している可能性がある場合は、単一の分類関数を提供するのではなく、学習アルゴリズムが一連の関数を学習する必要があります。各関数は、入力の異なるサブセットが欠落しているxの分類に対応しています。「しかし、私たちはそれらすべての結合確率分布を記述する単一の関数を学ぶ必要があるだけです」。

または、それを欠損値
補完として定式化することもできます。アルゴリズムには新しい例xが与えられていますが、xのいくつかのエントリがありません。アルゴリズムは、不足しているエントリの値の予測を提供する必要があります。


0

最も簡単な解決策は、ステージごとに1つずつ、10個のモデルを作成することです。これにより、ステージごとに異なる機能または異なるアルゴリズムを使用できます。


0

私も同じ問題を抱えていました。集計関数を使用できます。たとえば、最大、最小、平均、カウント、標準、または線の傾きなどの計算を使用します。その後、ステージとは関係なくなりました。

わたしにはできる。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.