すべてが爆発したときのチェックリストは何ですか?


40

ユーザーは電子メールにアクセスできず、CEOは会社のホームページにアクセスできず、ポケットベルは「911」コードで送信されました。すべてが爆発したとき、あなたは何をしますか?

回答:


35

最初の答えは落ち着いてください!パニックを起こす困難な方法はしばしば事態を悪化させるだけだということを学びました。それが達成されたら、次のことは問題が何であるかを実際に確認することです。ユーザーとマネージャーからの苦情があらゆる角度からあなたに来て、彼らができないことをあなたに話しますが、問題は何ではありません。

問題がわかったら、それを修正する計画を開始し、怒っているユーザーにタイムスケールを与え始めることができます!


3
これは事後対応型の計画です。真のディザスタリカバリ計画は、すべての重要なビジネスプロセスに対してすでに作成およびテストされています。
spoulson

3
確かに:しかし、最初にすべきことは、計画をアクティブにする必要があるかどうか、またはサーキットブレーカーを反転するとすべてが解決するかどうかを把握することです。
pjz

1
これは実際に行うのに最適なことです、完璧な投稿!上記のコメントで述べたように、誰もがあなたのオフィスに急いで行きたい場所に行くことができるので、背中にすべての圧力をかけることができなければなりません。実際、ユーザーはほとんどの場合、これらの瞬間に本当に利己的であり、彼らはまったく理解したくなく、彼らは物事が機能することを望み、残りは気にしません...だから私はあなたの投稿に完全に同意します!
マークアンドレR.

「問題」と症状を区別するための+1。
bmb 2009年

59

落ち着いて

びっくりしないでください。呼吸して!(横隔膜から、それは助けになります。)瞑想を勉強したことがあるなら、それも助けになります。

極度のストレスに直面した場合、あなたの体は生死の状況にあるとあなたの体が考えるので、あなたの体は飛行または戦闘モードに入ります。この時点で、あなたの体は実際には脳の一部に送られる血液が少なくなり、推論などの機能が低下します。これにより、合理性ではなく本能が脳機能を支配し始め、IQが効果的に低下します。あなたが今までに白熱した議論をしたか、目撃したことがあるなら、人々の感情が燃え上がり、合理性が休暇を取るので、これらの症状を認識するかもしれません。後に、人々がクールダウンする機会があるとき、彼らは間違いを犯したか、間違っていたことを受け入れる可能性が高くなり、反対側を見ることができるようになりますが、今の暑さの中ではそうではありません。

落ち着きを保ち、あなたについての知恵を保つことは、脳が最大限に機能し続け、感情や恐怖ではなく証拠と理由に基づいて合理的な決定を下すことを保証します。

トリアージ

ここでは、限られたリソースを効率的に適用して、最小のコストで最大の利益を達成することが非常に重要です。すぐに修正する必要があるもの、少し(数時間、数日)待つことができるもの、および無期限に待つことができるものをできるだけ早く決定します。また、何かが救い得ず保存する価値がない場合(たとえば、ルーターの半分が溶けて、それが唯一のものであったとしても、それを保存したり、新しいものを購入したり、ポストヘイストでサイトに入れたり、できるものを見つけたりすること)一時的にギャップを埋めます)。

状況認識を保持する

いくつかの興味深い問題や、まだ十分に理解していない何かに注意が向けられないようにしてください。全体像と最も重要なものを機能させることに集中してください。

科学的方法を使用する

仮説を立てます。この仮説をテストする方法を決定します。仮説をテストするためのデータを収集します。不確認データも探してください。仮説を調整し、行動を起こすのに十分な自信があるまで、必要な回数だけサイクルを繰り返します。

実用的であること

今はドグマの時ではありません。災害から回復するとき、あちこちでいくつかのショートカットをとっても構いません。これは本質的に技術的な負債を生じています。多くの企業では、壊滅的な障害は収益の壊滅的な損失を意味します。揺れている場合でも、物事を実行する方が、会社の生活を危険にさらして危険にさらすよりも優れています。いつものように、ここでは判断が非常に重要です。サーバーラックに向けられたボックスファンを立てることが理にかなっている場合もあれば、そうでない場合もあります。

自分自身の面倒を見ます

この緊急事態にどのくらい取り組んでいますか?最後に水を飲んだのはいつですか?最後に食べたのはいつですか?どれくらい起きていますか?緊急事態があるからといって燃え尽きないでください。水分補給、摂食、休息をとる時間をとってください(長い複数日にわたるスローの場合)。

募集ヘルプ

あなたの会社には、やる気があり、助けを借りることができる才能のある人がほぼ確実にいます。しかし、あまりにも多くの人が走り回り、お互いにトラブルを引き起こすことに注意してください。また、人々を「ファイアドリル」に通すことで、迷惑な人々に注意してください。既に支援したい人を見つけ、ターゲットを絞ったタスクに取り組んでもらい、人々が互いに通信していることを確認します。

通信する

コミュニケーションは重要です。未知のものほど怖いものはありません。何かが壊れていること以外に人々が何も知らない場合、X時間でバックアップされるという空のステートメントはわずかに安心します(X時間が過ぎても物事が壊れた後の安心感はさらに低くなります)。プレー中のプレッシャーは、過度に楽観的なWAGの時間推定値を与えるようにあなたを導くことができますが、これは間違ったコースです。作業中だと言うだけでなく、X timeで修正されると言うだけではありません。オープンで、プロセスを示し、進捗状況と失敗を詳しく説明します。問題、それを追跡するプロセス、および問題を修正するための計画についての洞察を提供します(ただし、細かい点で人々をdrれさせないでください)。問題が手に負えないことを示し、物事が最終的に正しく行われることを示し、問題に有能な人々がいることを示し、


2
非常に良い- 可能な場合は採用支援も追加します
ブレント

@ブレントああはい、私はそれを追加するつもりでした。しかし、私はまだそのセクションの正しい言い回しを理解していません。
ウェッジ

24

パニックしないでください。


4
大きくてわかりやすい赤い文字。
スポイケ2009

1
ピンクは心を落ち着かせる色だと聞いた。
ソフィーアルパート

11
タオルを手に取って、「とても長く、すべての魚に感謝します」というメッセージを残します。
ジョーダーホー09

1
彼らは、トープはとてもなだめると言います
グレン・

投票の途中です!
アンドリューグリム




8

最初に基本を確認してください、それはばかげているようですが、

  1. サーバー施設の電源は入っていますか?(オフサイトでホストする場合)
  2. ホスティングプロバイダーがダウンしていますか?

問題がアップストリームである場合、解決策を探すために多くの時間が浪費されることを知っています


2
うん-それがすべてダウンしている場合-データセンターを確認してください-と彼らのサポートフォーラム。30人がオンラインで、通常3人の場合、ファンに打撃を与えています。
アリスターブルマン

6

私はものをpingします。その後の処理は、pingの結果によって大きく異なります。


今日、この方法を使用しました。多くのPCで印刷できませんでした。データベースサーバーにpingを試行しました、OK。プリンターライセンスサーバーにpingを試みましたが、応答がありません。結果=サーバー障害!
スウィンダーズ2009

良い点;)私は他のことをする前に一日に何度もやります。P:これは実際にはそれほど時間の節約である
マルク・アンドレ・R.


4

ネットワークを非難します。

(それは冗談だ!)



2

まだ何も修正しようとしないでください。

実際の根本的な問題が何であるかを正確に把握してください。物事の修正を開始します。複数の修正が必要な場合は、遅延する可能性のあるもの(少なくともできれば翌営業日まで)と、今すぐ修正する必要があるものを慎重に検討してください。

しかし、最も重要なことは、すべてが機能したら、なぜ「すべてが爆発した」のかを尋ねることです。これが再び起こらないようにするために何をするつもりですか?それがあれば解決策を容易にする任意のステップがある再び起こるの?


1

あなたがその上にいることを人々に知らせ、可能であれば、物事がいつ正常に戻るかについての見積もりを与えてください。

実際のトラブルシューティングに関しては、明らかに何が間違っているかに依存します。私は通常、さまざまなサービスの「ステータスの確認」スクリプトのコレクションを保持しています。


なぜこれがダウンモッドされたのですか?それは私にとって有効なポイントのようです。
アドリアーノヴァロリ広場

これは素晴らしい点です。予防は大きな災害を回避するための鍵です;)
マークアンドレR.

1

ケーブルを確認してください!簡単なEth0ケーブルスワップで問題を解決できたときに、他のものをチェックするのに何時間も費やしました...


実際、ケーブルは理由もなく死ぬことはありません。スタック、ラップ、または他の保護方法がうまくいかず、誰もがそれで遊ぶことができる場合、実際には、ケーブルが破損する可能性があります。それ以外の場合、理由はありません。
マークアンドレR.

0

緊急時対応計画が必要です。

重要なシステムは、自動フェールオーバーまたは文書化されテストされた復旧計画のいずれかを使用して設計する必要があります。

システムの重要性が高いほど、構築する必要のある復元力が高まり、システムの自動化が必要になります。

持っていない場合、それは重要ではありませんでした!


0

履歴書のバックアップが安全であることを確認してください:)その後、

共通点を見つけます。影響を受けるすべてのシステムに共通するもの。

変更点を見つけます。組織で正式な変更管理を行う必要があります。

新しい男はどこに...上司はどこに...?それらの1つは近道を取りましたか?(これは単にサーバーをすばやく再起動するだけで、何が問題になる可能性があります)



0

ステートメントから特定のアクションセットを提供することは困難です。あなたの最初の動きは以下に基づいています:

  • どこにいる
  • あなたに連絡した人から絞り込める情報量
  • トラブルシューティング(または情報検索)のために手元にあるツールは何ですか
  • ネットワークの物理的および論理的パスに関する知識
  • どれだけの助けがありますか(チームの一員ですか?または寂しい忍者?)

明らかに、落ち着いて、目前の問題について注意を払う必要があります。ネットワークのトラブルシューティングの経験から、これは次のような些細なことになる可能性があることがわかります。

  • 切断されたケーブル
  • 予告なしのメンテナンス(別の技術の「修正」)
  • CEOが、チーズピザを電子レンジで調理しているためにラップトップのワイヤレス接続が失われた後、会社が完全に運命づけられていることに過剰に反応しています。

とはいえ、次のカテゴリでも深刻な問題になる可能性があります。

  • 物理的な輸送(接続性)
  • ハードウェア(ルーター\スイッチ\サーバー)
  • ストレージ(アクセス不能\危殆化\削除済み)
  • ソフトウェア(サービス> Misconfigured \ Attacked \ offline)

重要な要素は、問題をどれだけ知っているかです。あなたの基準点は何ですか?(「システムダウン」とはどのような観点からですか?)。



0

簡単に始めて、不条理に向かって働きます。

力?

イーサネット?

プログラムは実行中ですか?

...

エイリアン?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.