タグ付けされた質問 「sla」

4
事後レビュー用の停止の文書化
この1週間でかなり深刻な機能停止が発生し、お客様とのSLAから外れたいくつかのサービスに影響がありました。すべてが解決したので、事後レビューを行っています。 このレビューから、停止、その影響、私たちの対応、解決策を説明する内部文書を作成したいと思います。将来の再利用のために、かなり標準的なフォームを思いつきます。以下に私の考えを含めましたが、他にどんなアイテムを含めるべきですか?これがセキュリティ関連のインシデントであった場合、何を追加しますか? 概要イベントのエグゼクティブレベルの概要。 影響を受けるサービス 影響ユーザーとSLAにどのような影響がありましたか?ドル単位のコスト、取引の失敗、顧客の損失などがありましたか? 障害が発生した場合、影響を受ける各サービスの停止期間 原因一次および二次原因を含む 解決 イベントのタイムライン通知の外部ベンダーとの連絡、顧客通知、応答など。 応答に関する問題停止に対する応答では、物事が計画どおりに進まなかったのですか?正しい人に通知されますか?ベンダーは契約上の義務を果たしましたか? 予防措置を講じるこの停止が再び発生するのを防ぐか、その影響を減らすにはどうすればよいですか? 検出方法この停止をどれだけうまく検出したか、また将来どのように検出を改善するか? 将来の停止対応で行う変更 投稿を1つの項目と説明にまとめてください。この投稿は、上位の回答で更新できます。
14 sla  outage 

2
地理的に分散した、フォールトトレラントで「インテリジェントな」アプリケーション/ホスト監視システム
ご挨拶、 分散監視システムに関する集団の意見と見解を尋ねたいのですが、何を使用し、どのボックスが私のボックスにチェックマークを入れるのかを知っていますか? 要件は非常に複雑です。 単一障害点はありません。本当に。私は真剣です!「マスター」と「ワーカー」の両方の単一/複数ノード障害に耐えられる必要があり、監視場所(「サイト」)に複数のノードが存在しないか、同じネットワーク上にあると想定できます。したがって、これはおそらく、DRBDやキープアライブなどの従来のHA技術を排除します。 分散ロジック、複数のネットワーク、複数のデータセンター内、複数の大陸に5つ以上のノードを展開したいと思います。顧客の視点からのネットワークとアプリケーションの「鳥の目」ビュー、50以上のノード、さらには500以上のノードがある場合でも、監視ロジックが動かなくなることのないボーナスポイントが必要です。 球場の数値では1500〜2500のホストとホストあたり30のサービスを想定しているため、かなり合理的な数のホスト/サービスチェック、la Nagiosを処理できる必要があります。監視ノードを追加することで比較的直線的にスケーリングできるようになり、5年後には5000ホストとホストあたり40サービスを監視できるようになると思います。上記の「分散ロジック」についてのメモに追加して、次のように言ってください。 通常の状況では、これらのチェックは監視ノードの$ nまたはn%で実行する必要があります。 障害が検出された場合、ノードの別の$ nまたはn%でチェックを実行し、結果を相関させてから、それらを使用して、アラートを発行する基準が満たされているかどうかを判断します。 グラフと管理しやすい機能。SLAを追跡し、「高可用性」アプリケーションが24時間365日稼働しているかどうかを知る必要があります。理想的には、提案されたソリューションは最小限の労力で「箱から出して」報告する必要があります。 オーダーメイドチェックを開発するための堅牢なAPIまたはプラグインシステムが必要です。 アラートについて賢明である必要があります。1つの監視ノードがコアルーターがダウンしていることを認識していることを(SMSを介して、午前3時に!)必ずしも知りたくありません。私はないそれらの定義された割合があれば知りたい同意何かファンキーが起こっていること。)基本的に私はおよそここで話していることは、「定足数」の論理、または分散狂気への正気のアプリケーションです! 私は商用とオープンソースの両方のオプションを検討したいと思いますが、数百万ポンドかかるソフトウェアを避けたいと思います:-)また、これらすべてのボックスをチェックするものが何もないかもしれないことを受け入れます集団にそれを尋ねたかった。 ノードとその配置を監視することを考えるとき、これらのほとんどはランダムISPネットワーク上の専用サーバーであり、そのため主に私の制御範囲外になることに留意してください。BGPフィードやその他の複雑なネットワークのふるまいに依存するソリューションはおそらく適切ではありません。 また、Nagios、Zabbix、友人など、過去のほとんどのオープンソースのフレーバーを評価、展開、または頻繁に使用/カスタマイズしたことも指摘しておく必要があります。特に、私の質問で説明されているロジックと「インテリジェント」アラートに関して。 必要な点を明確にしてください。乾杯のみんなとギャル:-)
12 monitoring  nagios  sla 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.