(線形回帰)予測の調整


11

完全な開示:私は統計学者ではありません。私はあまりIT管理者ではありません。私と優しく遊んでください。:)

私は、企業のディスクストレージの使用量を収集および予測する責任があります。ストレージの使用量は毎月収集され、予測には単純なローリング12か月の線形回帰が使用されます(つまり、予測を行う際には、過去12か月のデータのみが考慮されます)。たとえば、「このモデルに基づいて、ニーズを満たすためにyか月以内に保管する場合はxの金額を購入する必要があります」など、この情報を割り当てと資本支出の計画に使用します。これはすべて、私たちのニーズに合わせて十分に機能します。

定期的に、予測をスローする数字の大きな一時的な動きがあります。たとえば、誰かが不要になった500 GBの古いバックアップを見つけて削除したとします。スペースを取り戻すために彼らのために良い!しかし、私たちの予測は現在、この1か月の大幅な下落によって大きく歪んでいます。このような低下がモデルから抜け出すには9〜10か月かかることを常に受け​​入れてきましたが、資本支出計画のシーズンに入った場合、それは本当に長い時間になる可能性があります。

これらの1回限りの変動を処理して、予測値がそれほど影響を受けない(たとえば、ラインの傾きがそれほど大きく変化しない)方法を考えていますが、それらは考慮されています(たとえば特定の時点に関連するy値の1回限りの変化)。これに取り組む私たちの最初の試みは、いくつかの醜い結果をもたらしました(例えば、指数関数的成長曲線)。必要に応じて、SQL Serverですべての処理を行います。


すばらしい質問です。簡単な説明です。これらのイベントを予測しますか、それとも発生したら、新しい情報に基づいてモデル予測を調整しますか?
Matthew Drury

1
右、500 GBの例のようなこれらのまれなイベントを「スムーズに」しようとしているかどうか、結果にそれほど影響を与えないかどうか、またはビッチの調整を保存するときにキャプチャする必要があるため、それらをより多く説明しようとするかどうかは明らかではありません。作られています?違いは微妙です。最初の点では、新しいポイントをほとんど無視します(まれなイベント)が、2番目の点では、ポイントを強調します(まれなイベント)。前者の場合、すでに線形回帰を使用しているので、ロバスト回帰はおそらく簡単な方法です。ここを参照してください: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

また、予測を行うためにソフトウェアを使用していますか?信頼区間を使用していますか?
StatsStudent 2016

事後調整を追加できます。実際、ほとんどの場合、来月の数値を見て大きな変化が見られるまで、大きな逸脱については知りません。予測にソフトウェアを使用していません。SQL Serverのストアドプロシージャだけで、回帰値を計算します。
2016

素早い反応:(a)おそらく最初に、非常に基本的なAR(1)をログディスクの使用量の変化に合わせますか?基本的に、ディスク使用量の長期的な増加率と、ショック後にディスク使用率の増加率がその傾向に戻る速度を推定します。(aa)他のデータも使用して、VAR(ベクトル自己回帰)に適合させることができます。(b)12か月を超えるすべてのデータを破棄することは、最適なことではありません。(c)通常のOLSは平方和を最小化します。外れ値に対してより堅牢な別のペナルティ関数(たとえば、Huber)を使用できます。
Matthew Gunn

回答:


0

ここに簡単な提案があります。うまくいくかどうかはわかりませんし、コメントとして書いておくべきだったかもしれませんが、コメントを書くには、返信するよりも特権が必要なようです。

私が正しく理解している場合、使用している数値は、毎月使用しているストレージの量です。おそらくこれらの通常の増加であり、トレンドが継続する場合、将来のある時点での金額を予測する必要があります。大きな変更が発生した(たとえば、500 GBが解放された)ことに気付いたら、前の月の数値に戻って変更できます(たとえば、それらすべてから500 GBを削除します)。基本的にあなたがしていることは、あなたが今知っていることを知っていれば、前の月の数字を彼らがあったはずであったものに調整することです。

もちろん、以前の数字に戻れることを確認しない限り、これはお勧めしません。しかし、実行したい予測は、Excelで実行することもできるように聞こえます。この場合、必要な数のバージョンを作成できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.