この1週間でかなり深刻な機能停止が発生し、お客様とのSLAから外れたいくつかのサービスに影響がありました。すべてが解決したので、事後レビューを行っています。
このレビューから、停止、その影響、私たちの対応、解決策を説明する内部文書を作成したいと思います。将来の再利用のために、かなり標準的なフォームを思いつきます。以下に私の考えを含めましたが、他にどんなアイテムを含めるべきですか?これがセキュリティ関連のインシデントであった場合、何を追加しますか?
- 概要イベントのエグゼクティブレベルの概要。
- 影響を受けるサービス
- 影響ユーザーとSLAにどのような影響がありましたか?ドル単位のコスト、取引の失敗、顧客の損失などがありましたか?
- 障害が発生した場合、影響を受ける各サービスの停止期間
- 原因一次および二次原因を含む
- 解決
- イベントのタイムライン通知の外部ベンダーとの連絡、顧客通知、応答など。
- 応答に関する問題停止に対する応答では、物事が計画どおりに進まなかったのですか?正しい人に通知されますか?ベンダーは契約上の義務を果たしましたか?
- 予防措置を講じるこの停止が再び発生するのを防ぐか、その影響を減らすにはどうすればよいですか?
- 検出方法この停止をどれだけうまく検出したか、また将来どのように検出を改善するか?
- 将来の停止対応で行う変更
投稿を1つの項目と説明にまとめてください。この投稿は、上位の回答で更新できます。