各欠損値を代入する必要がある場合は、時系列の複数の代入または内挿法を検討できます。例:https : //stackoverflow.com/questions/49308530/missing-values-in-time-series-in-python
目標がステージ10へのエントリ時間を単に予測することであり、中間ステージにいつ到達するかを気にする必要がない場合は、回帰問題を扱うことができます。つまり、ステージ10までの時間を予測するだけです。一部のデータが欠落している通常の教師あり学習問題。唯一の追加手順は、スコアリングするデータと一致するようにトレーニング/テストデータに欠落を作成する必要があることです。
トレーニング/テストデータは、ステージ10までの完全なデータを含むすべてのレコードで構成されます。
このデータ内で交差検証またはトレーニング/テスト分割を使用して、Stg10までの時間を予測する予測モデルを作成します。このデータ内で、Stg1とStg9の間のデータをランダムに空白にしてスコアリングデータセットをシミュレートしますが、予測するラベルが必要なため、Stg10は保持します。ランダムフォレストなどのツリーベースのメソッドを使用します。変数間の依存関係は問題なく、欠落データを処理するためです。
このモデルを使用して、ラベルのないデータ(つまり、Stg10情報がない場所)にスコアを付けます。残りの問題は、ラベル付けされていないデータセット内の完全性のレベルです。Stg9まで満たされていれば問題ありません。彼ら全員がStg1に行く場合、問題があります!したがって、このメソッドをサポートするためにデータに十分な完全性があるかどうかを確認する必要があります。
しかし、それは開始するのに有効な場所であり、目的に十分であることが判明する場合があります。