完全な開示:私は統計学者ではありません。私はあまりIT管理者ではありません。私と優しく遊んでください。:)
私は、企業のディスクストレージの使用量を収集および予測する責任があります。ストレージの使用量は毎月収集され、予測には単純なローリング12か月の線形回帰が使用されます(つまり、予測を行う際には、過去12か月のデータのみが考慮されます)。たとえば、「このモデルに基づいて、ニーズを満たすためにyか月以内に保管する場合はxの金額を購入する必要があります」など、この情報を割り当てと資本支出の計画に使用します。これはすべて、私たちのニーズに合わせて十分に機能します。
定期的に、予測をスローする数字の大きな一時的な動きがあります。たとえば、誰かが不要になった500 GBの古いバックアップを見つけて削除したとします。スペースを取り戻すために彼らのために良い!しかし、私たちの予測は現在、この1か月の大幅な下落によって大きく歪んでいます。このような低下がモデルから抜け出すには9〜10か月かかることを常に受け入れてきましたが、資本支出計画のシーズンに入った場合、それは本当に長い時間になる可能性があります。
これらの1回限りの変動を処理して、予測値がそれほど影響を受けない(たとえば、ラインの傾きがそれほど大きく変化しない)方法を考えていますが、それらは考慮されています(たとえば特定の時点に関連するy値の1回限りの変化)。これに取り組む私たちの最初の試みは、いくつかの醜い結果をもたらしました(例えば、指数関数的成長曲線)。必要に応じて、SQL Serverですべての処理を行います。