本番システムがダウンしたとき、どのようにクールに保ちますか?[閉まっている]


26

これは私たちのほとんどに起こりました...

あなたはいつか仕事に来ます。すべてが正常なようです-太陽は輝いており、鳥はさえずりますが、あなたは仕事中にいくつかの奇妙なことに気づき、それがマトリックスのデジャヴ猫を思い出させます。

あなたがオフィスに入ると、たくさんの電話が鳴っています-しかし、それは彼らが新しい販売促進をしているということだけかもしれません。暗い雲があなたの上に浮かんでいることに気づいたら、あなたは落ち着きます。

少し時間がかかりますが、クラウドがあなたの上司であることを認識しています。通常、彼は毎朝「Soooo Peeeeter、これらのTCP / IPレポートはどうですか?」であなたをチェックします。しかし、今日、彼は一般的なマナーについてすべてを忘れて、あなたの個人的なスペースに無作法に侵入しました。「おはよう」はなく、ただいくつかのよだれ、うなり声と呪い。彼は、サイバーボールの虎、恐怖、パニックからすべて逃げようとしているネアンデルタール人のことを思い出させます。昨日から彼が作成した新しい言語を解読しようとすると、何か悪いことが夜通し起こったことを理解し始めます-本番システムがダウンしました。

現在、システムは通常、クライアントによって9時から5時までの通常の営業時間に使用されますが、何らかの理由でブザーでアラートを受信しませんでした(30歳未満の場合-ブザーは鳴るだけの携帯電話のようでした)誰があなたにビープ音を鳴らしたか教えてください)。次回充電することを忘れないでください。

そのため、現在は午前8時45分であり、システムは午前9時でなければなりません。10秒ごとに、上司はさらに別の呪いを解き放ち、別の顧客がシステムに入るのに問題があることを伝えます。また、数人のアカウントマネージャーが上司にカーソルを合わせて、クライアントが本当に本当に苦しんでいるのかを理解させようとしています。

誰もがシステムをできるだけ早く起動することをあなたに依存していると同時に、常にあなたの注意をそらすことによってあなたの進歩を妨げています。

このような状況でどのようにクールに保ちますか?


34
ステップ1:プログラマーに300ワードの投稿を作成します。stackexchange。
-kubi

8
それが今起こっていると言っていない。お待ちください...
Mag20

1
これは開発者特有の問題ですか?責任を負うものが機能していない場合、その「もの」が何であるかに関係なく、プレッシャーに対処できる必要があります。
ChrisF

1
私自身の経験では、大小さまざまなソフトウェア会社が災害復旧訓練を行っていることがわかりました。私はこれをあなたの上司に伝えました。あなたが物事を訓練するなら、あなたは何を期待するかを知っていて、あなたは応答時間を感じることができることを知っています。プロセスのいずれかを自動化できるかどうかも評価できます。電源が切れるとどうなりますか?オフィスで火災が発生した場合、どうなりますか?サーバーは、社内または外部などでホストされていますか。実際、緊急時対応計画を実施するには、ストレスを感じる必要があります。
荒涼とした惑星

3
これは、TheDailyWTFのエントリの開始のように見えます!
グラントペイリン

回答:


43

このような状況では、他のすべての人をあなたから遠ざけることで上司に助けてくれるよう頼んでください(そうすれば、彼はどこか他のことをすることができます)。

立ち上げて再度実行する場合は、上司に会議を依頼して、これを再度回避するための手順を評価および確立してください。


1
+1。災害復旧訓練は、反応と応答時間を測定するための良い方法です。残念なことに、私はそれが十分に行われていません。
荒涼とした惑星

@DP yah、しかし、それはできません。なぜなら、訓練が行われている間、実際の緊急事態に人と機器が利用できないことを意味するからです(はい、私はその議論を複数回聞いたことがあります)。もちろん、十分な人数と装備があれば、1つのチームを1つのセットでトレーニングし、もう1つのチームは勤務中に
...-

@jwentingは、火災警報器を節約するように聞こえます。

9

最初にすることは、気晴らしを可能な限り丁寧に取り除くことです。顧客にとってそれがどれほど悪いかについて、あなたの耳に不平を言う人と一緒に働くことはできません。これはもちろん、上司がマニアの場合は言うよりも簡単ですが、その場合は、とにかく別の仕事を見つけることを検討してください。

次に、エラーが引き起こしている実際の損失と、(もしあれば)迅速に軽減する方法を簡単に評価します。少し練習すれば、ログファイルを簡単に確認することもできます。これは、行動計画を立てるのに必要です。

問題が複雑な場合は、最も深刻な部分に集中してください。行動に飛び込む前に、2つまたは3つのステップを考えてください。また、行動する前に計画をどのように取り消すかを必ず確認してください。

そして最も重要なこと:パニックにならないでください!


7

このような状況は、産業用制御システムでは一般的です。生産ラインは真夜中にダウンし、会社は通常1分間に数百ドル、さらには数千ドルを失い、彼らは問題を解決するためにあなたを探しています。このように処理します:

  1. 彼らにあなたが知っていることを説明してください
  2. わからないことを説明する(ただし、問題を解決するには知っておく必要がある)
  3. わからないことをどうやって見つけるかを説明する
  4. それらにかかる時間の見積もりを与えます(範囲を使用)
  5. あなたがあなたの計画に従うことに集中している間、あなたの周りのすべてを無視します

6

まず最初に、災害復旧を繰り返し実行すること(人が肩越しになることなく)を行うことで、SOの質問に頼らずに何をすべきかを調べることなく、問題を診断および修正するために必要な手順を正確に把握できます。回復スキルに自信を感じると、プレッシャーとストレスははるかに低くなります。

次に、作業中に人々を髪の毛から引き離します。あなたの上司は彼が彼の上司に行くことができる何かを望んでいます。あなたが何をしようとしているのか、どれくらいの時間がかかるのか、そして特にあなたが彼らに言ったよりもかなり時間がかかることを意味する何かを見つけた場合は、定期的な進捗報告を彼らに与えてください。はい、進捗レポートを修正するには時間がかかりますが、上司やユーザーをホバリングするとさらに時間がかかります。私、私は毎回進捗報告書に行きます。彼らがあなたがそれらを最新の状態に保つと確信したら、彼らはあなたがあなたの仕事をもっとやり、あなたをもっと放っておくとあなたを信頼するでしょう。

ユーザーがしばらくブロックされる場合、オプションである場合はメールを送信するか、ウェブサイトに通知を掲載して、メンテナンスのためにサイトがダウンし、いつ再試行できるかを通知します。(これはおそらく、上司があなたの髪の毛を締め出すために誰かを見つけるためにあなたに与えることができる1つのタスクです)。問題が修正されたときに、メールを送信した場合は、同じグループにメールを送信して、修正されたことを伝えます。何回これを忘れてしまったのか、ユーザーはまだログインできないと思っているのを見たことはありません。目標は、物事を立ち上げることだけでなく、人々が再びシステムで作業できるようにすることです。

深く呼吸し(深呼吸が落ち着く)、問題に突入します。緊急時には脳のシナプスが通常ほど早く情報を取得しないことがあるため、必要なことをどこかに書き留めておくことは良いことです。あなたは馬鹿なつぶやきのように見えたくありません。

生産システムをサポートする仕事に就いている場合、一般的な緊急事態によく反応するような人間であることが最善です。これを本当に学べるかどうかはわかりません。あなたの前で馬に乗っている人が落ちて(私の人生から取られたそれほどランダムではない例)、地面に出血して横たわっていたなら、あなたは口を開いたまま立っている人ですか?誰が救急車を呼んで、出血に圧力包帯をかけ、誰かに馬を捕まえるように指示しますか?あなたが最初のタイプの人であれば、おそらくこれはあなたにとって正しい仕事ではありません。


2

これがバックアップサーバーが必要な理由であり、最初のサーバーがダウンした場合にすぐに切り替えることができるプライマリサーバーと同じように動作する2番目のサーバーを意味します。


バックアップサーバーのスイッチがオンになっているのを見ましたが、プライマリサーバーと同じ問題がありました。ハードウェアコストが2倍になり、構成コストが追加され、総費用が無駄になりました。高可用性の作業を行っている場合は、確かですが、問題に合わせてハードウェアを適切なサイズにする必要があります。
スコットホイットロック

プライマリシステムと同じバグの影響を受けるバックアップシステムの1つの(極端な)例は、Ariane 5 Flight 501
Andre Holzner

2

あなたが作成した問題に対してあなたに腹を立てている人々によってあなたが四方から囲まれているとき、それは十分に悪いです。クライアントが間違って設定したことが何度も起こりました。つまり、障害はクライアントとの通信にあることを意味します(障害が聞いていないクライアントであるか、よく説明していないマーケティング担当者であるかはわかりません)。

彼らが台無しになったことをどのように説明しますか?特に上司があなたの首を呼吸しているときは、決して簡単な仕事ではありません。なぜなら、彼は顧客が常に正しいと仮定することよりも良いことを知らないからです。

それでは、このような状況でどのようにクールに保ちますか?上司に丁寧に思い出させて、仕事に就くのが早ければ早いほど、この問題は直ぐに解決するだろう。


1

このイベントを、できるだけ早く運用システムを稼働状態に戻すことで(ビジネスにとって)自分がどれだけ価値があるかを示す機会と見なすことにより(午前9時まででなければ;-))。

明らかに、そもそもそれを壊さないことを望んでいる;-)


1
  • sh_tが起こる
  • 問題の解決策が必要です
  • 世界の誰かが解決策を知っていれば、私は彼らの一人になれます
  • 解決策がない場合、パニックは解決しません
  • 再び、sh_tが発生します

0

問題が解決したら、上司に必ず連絡してください。しかし、この種の状況では、経営陣は通常、できるだけ早く解決し、その後「関係者」と解決するために他の人々を関与させます...それは業界に関係なく、どの企業でも普通のことです。ビジネスに関しては、顧客は通常王です!!


0

そのような状況は、すべての詳細なドキュメントと、あらゆる種類の状況に対処するための完全な計画を持っているという動機になります。

考えられるすべての問題を予測することはできませんが、準備を整え、整理し、文書化することで、背後で作業することができます。


1
ドキュメントを使用して生産上の問題(システムダウンなど)を解決したことはありません。
マーシー

1
いいえ。ただし、仕様、テーブル定義、サーバー設定など、何かを調べる必要がある場合は、文書化しておくと役に立ちます。
クロセンブラム

0

第3次世界大戦の5分間のアラートで、B52G爆撃機のメンテナンスに8年間費やしました。それは私にとってすべてを視野に入れています。

生産システムのダウンは重要ですが、数百万人または数十億人を殺すことはありません。

何が間違っているのかを見つけ、原因を見つけ、修正します。重要な人との明確なコミュニケーションを確立し、常に情報を提供します。上司にあなたが何をしているかを伝え、あなたが彼を更新できるようになると、「まだ修正されていますか」というメッセージや会話の継続的な流れを防ぐことができます。

徹底的な事後調査を行い、将来そのような事件の影響を防止し制限する方法を見つけ出す。

通話中の場合、携帯電話やブザーでバッテリーが切れていることは非常に専門的ではありません。これは一般的なシナリオで構成されていますが、これが私のために働いている人に起こった場合、深刻な議論があり、繰り返された場合、彼らはもはや私のために働いていません。はい、私は大変です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.