最悪のSysAdmin事故[終了]


8

最高のsysadmin事故に関する質問に沿って、あなたが関与した中で最悪の事故は何ですか?前の質問とは異なり、私はほとんどのシステムの損傷または人々への実際の害という意味で「最悪」を意味します。

私から始めましょう:

100フィートの廊下の端に2つのリモート配線クローゼットがあり、床に金属格子が付いています。Cat6ケーブルを取り付けた後、施工業者は、格子を介して3フィート下のコンクリートに落ちたすべての破片を取り除きました。同僚と私はある日、廊下に入って進行状況を確認しましたが、気が散り、すりおろしの片が横に移動したことに気付きませんでした。私の相棒は空中に足を踏み入れ、彼の胸は鋼鉄のクロスバーに激突した。彼は、数日間休むのに十分なほどの痛みと痛みを感じていましたが、幸運なことに、鋼鉄の梁の端が丸く、開口部の大きさは、頭やその下の床にぶつけないような大きさでした。

明らかに、床が部分的に削除されている領域にフラグを立てる必要があることを学びました。


1
これはコミュニティWikiに設定する必要があります
Joe

参照してくださいserverfault.com/questions/7902
3dinfluence

回答:


1

あなたがハリケーンアンドリューの間に南フロリダに住んでいると想像してみてください(24時間体制の大流行の少し前)。すべてのサーバーは、バッジを必要とする建物と、バッジの追加スキャンが必要なより安全な領域に安全にロックされています。ドアの実際のハンドルを必要とすることを説明しなかったnitwitを想像してください。配送が必要な400万ドルの契約を想像してください。最も近い電力は北230マイルで、ガスが不足していて、危険な道路があり、48時間の電力を供給するように設計された発電機があります。トラックの後ろにあるサーバーのコレクションで、ガスの不足で行き詰まったミッキーマウスのターンパイクに引っかかっている場合は、笑います。ロジスティクス、システム管理者、および運用の観点からすべてがどれほど悪かったかについて、言い訳がまったくできない場合は笑います。


17
うーん、これを間違った方法で取らないでください。しかし、すべての「笑い」のために、ストーリーで実際に何が起こったかはわかりません...
マークヘンダーソン

1
それは面白いです、私は48時間の発電機の部分が好きです。チェックアウトした場所の1つは現場で48時間の燃料があり、もう1つはユーティリティヤードで14日ありました。彼らは発電機を補充するために燃料トラックを所有していたため、他の人に頼る必要はありませんでした。彼らはまた水力発電会社でした。
SpaceManSpiff 2009年

物語ではありませんが...全体の話は上にあります。
ojblass 2009年

燃料トラックは賢い考えです。昨年私は、現場にディーゼル燃料が数日しかなかったシアトルのデータセンターをツアーしました。私は感銘を受けませんでした。40年に1回だけシアトルのバスシステムが1日間停止しました。これは主に、大雪のイベント中に燃料トラックが基地に現れず、ディーゼル燃料を届けなかったためです。私は大地震、洪水、またはその他の地域の災害は、燃料がどのように引き起こすことを想像できないより吹雪で利用できるよりも。
スカイホーク

25

私がシスコで働いていたとき、30ドルのワイヤレスカードを購入し、ドライバーがインストールされないときにチップを吐き出していた顧客や、サポートの問題に怒り狂った、最も基本的なルーターが最も安価なCiscoの人々を雇っていました。

ある日、世界最大のカードプロバイダーの1つ(Amex、Mastercard、Visa、Dinersなど)から電話を受けたとき、これはすべて状況に当てはまりました...実際、それらはそれらのブランドの1つでしたが、彼らがそうであるかどうかわかりません私はそれに言及していただければ幸いです)。私は第一線のサポートでしたが、私の唯一の仕事は、シナリオを評価して評価し、適切なサポート部門に伝えることでした。このケースは、私がこれまでに経験した唯一の優先度1のケースでした。

カード会社の男性が電話をかけ、東西海岸の米国のメインフレーム間のリンクがダウンしていると述べました。アカウントが1つのメインフレームで作成された場合、トランザクションは常にそのメインフレームで処理されました。最も近いリンクが常にそのメインフレームに近い場合は問題ありません。ただし、この特定の日に東海岸のサーバーにアカウントがあり、西海岸にいる場合、リンクがダウンしているため、トランザクションは拒否されます。

被害を評価する際の標準的な質問は、「これはあなたのビジネスにどれだけの費用がかかるか」でした。落ち着いて集められた返事は「30秒ごとに約100万ドル」だった。

次に、30ドルのワイヤレスカードでカスタマーサポートを怒鳴りつけたくなったときに、実際にそれを使用します。

(Ciscoは転送されてから5分以内にリンクを確立して実行していることに注意してください)


3
それはおそらく、あなたがこれまでに聞くその質問に対する唯一の正直な答えです!
SpaceManSpiff 2009年

6
これは、誰かが「馬鹿げた質問をするのをやめて、今すぐ修正する」と言うのを聞いたときに、これが最も良い方法です。特に技術サポートに。
アーニー

10

rmやmvなどのエイリアスコマンドでは、間違いを避けるために '-i'オプションを追加するのが一般的です。しかし、これは少し前に私の会社で起こりました。誰かがこの行をいずれかのサーバーのルートの.bashrcに入れました。

alias rm='rm -i'

次に、行をコピーしてrmをmvに置き換えます...

alias rm='rm -i'
alias mv='rm -i'

残りは歴史です:)

まあ、問題は、「本当によろしいですか」の質問をmvすると、「移動」の代わりに「削除」と言ったことですが、それでも...


lmao so sot man ... historyコマンドは、あなたが自分のために出した巨大な毒を見つけるのを助けさえしません。
ojblass 2009年

4

私たちは大規模な小売店(1000以上の支店)に大規模なPOSシステムをインストールしていました。中央のポーリングサーバーはすべてカスタムHP-Unixコードであり、本番への移行テストはITディレクターの息子である1人の担当者が担当しました。

この男は1日の7.95時間をファンタジー小説の読み物に費やし、残りの数分間はバッチジョブを実行して夜間ビルドを本番環境に移行しました。このシステムは、150のブランチで稼働してから3日間でした(最初の「実際の」ロールアウト)。すべてが設定され、私のチームは最後のコードのテストを終えたところです。変更をコミットし、画像を開発からテストに移動して、翌朝ITディレクターの息子が受け取るようにしました。

私は午前8時にそこに着き、すべてが混乱しています。息子は、ファイルを運用環境にコピーした後、。/ changedフォルダーに移動して「rm -rf *」と入力するように指示されていたことがわかりました。はい、誰かが実際に彼にこれを言った!もちろん、彼はプロダクションルートドライブで誤ってこれを実行しました。これには、トランザクションポーリングデータベースも格納されていました(たまたま、バックアップのためにオフラインでしたが、幸運でした)。

結果:私たちの16のパイロットショップは、シガーボックスから(場合によっては、文字通り)2日間顧客にサービスを提供しなければなりませんでした。CIOの息子はServer Watcherに降格しました(彼は氷点下のサーバールームに座っていて、赤信号を監視することになっていたのですが...ログイン/メールをすべて取り消しました)。私たちの開発チームは、バックアップから失われたデータを再構築し、コードを再テスト/再送信するために徹夜で作業しました。

幸運にも150ブランチのロールアウトを作成しましたが、これは史上最悪のロールアウト体験でした。


1
少なくとも彼らは彼を降格させた
SpaceManSpiff 2009年

9
奇妙な。通常、関係する誰かがすぐに解雇され、部長の息子が昇進した。
kubanczyk 2009年

@kubanskamac-すばらしい

これは通常、「やめなさい、あなたは愚かな野郎なので、私たちはあなたを解雇する必要がない」と言う降格です。彼が今までにそうしたかどうか疑問に思う。
アーニー

1
彼は決して辞めませんでした...彼はまだそこにいて(10年以上後)、以前の元の位置(基本的にはロールアウトコーディネーターとヘルプデスクサポート)に戻ります。しかし、彼はサーバールームに数年間落ちていました。
ビープ音

2

Enterキーを押す前に、すべてのコマンド文を終了することを学びました。

私が直面する少し似た状況は、コマンドが不明な場合です。Homeを押し、いくつかのジャンク文字を入力して、コマンドが認識されないようにします。

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

そして、必要に応じて、オプションを再度確認します。他の誰かがそのようなことをしますか?もちろん、十分なジャンク文字(5+)を入力して、それが別の有効なコマンドになり、予測できないダメージを与えないようにする必要があります。

(これには、私が理解していない基本的な欠陥や、通常「asdfghjkl」キーに含まれる5つ以上のジャンク文字があると、予測できない何かが発生する状況がありますか?)


9
ジャンク文字は問題ありませんが、おそらく2つのより一般的な(そして決定的な!)アプローチ:コマンドの前に#を付けるか、全体に 'echo'を前に付けるか
Murali Suriar 2009年

@Muraliを使用しているので、「エコー」またはドライランは、特にデータの損失を防ぐためのデバッグに役立ちます。
LiraNuna

3
オンbash(おそらく他のシェル):Alt + Shift + 3(Alt +#)はコマンドをコメント化します。
ベルミンフェルナンデス2011

2

マネージャー用のラップトップのオペレーティングシステムを再インストールする際、誰かがネットワーク上のすべてのデータのコピーを/ tmpのLinuxステーションに作成しました。問題があり、1日以上かかりました。

... Linuxステーションは1日の終わりにシャットダウンされました...

彼らがマネージャーのデータを探しに行った翌日...


1

私は約7か月間システム管理者として働いていましたが、最初のタスクの1つはSquidプロキシサーバーを実行することでした。実際には、2週間後、BackTrackを使用して多くのツールをいじっていました。ハッカーを演じる」私は実際にサーバーをハッキングしましたが、それはちょっと良かったです。

Enterキーを押す前に、すべてのコマンド文を終了することを学びました。

乾杯。


うわあ。自分のサーバーにハッキングしてから、誤ってルートを消去しましたか?あなたの指が滑ったような?
Matt Simmons、

4
このn3wbを見てください。私は彼のIPを持っています。127.0.0.1!
Chris Thorpe、2010

1

お客様の1人が2005年12月24日にかなり珍しいXFSファイルシステムのバグに遭遇しました...まあ、もちろんそれがLinuxカーネルのバグであるとは知らなかったので、通常の容疑者の一部だと思っていました(13TB RAIDアレイで8KBの空き、偽のドライブ障害が発生した場合など)。

最後に、ファイルシステムをマウントできなかったため、行のオペレーターにと入力するように依頼しましたxfs_repair -n /dev/whatever。うーん、それはログをクリアしたいのですが(明らかに、FSはマウントできないため)、あまりに不愉快なメッセージはありません。だから行くよ:xfs_repair /dev/whatever

15分後、彼女は次のように電話します。

ほとんどのファイルが表示されないのはなぜですか?

ああ...けがに侮辱を加えるために、xfsprogsは、この正確な場合に深刻な害を及ぼすいくつかのバージョンのものであることがわかりました...痛い。8TBのデータは実際にはなくなっていました。


失うデータがたくさんあります!
マークヘンダーソン、

1

私のコロコロ施設はしばらく前にダウンタイムがありました。

彼らはインターネットへの主要なネットワークリンクを切断し、十分に公正なルーターのソフトウェアメンテナンスを実行しました。

ただし、同時に、セカンダリリンクのアップストリームプロバイダーは、いくつかのテストを実行するためにそれをオフに切り替えました(どうやら、彼らは知らされていましたが、データセンターで誤ってラベル付けされていました)。

これまでのところ残念なことに...しかし、顧客は施設にアクセスしてダウンタイムをプロバイダーの注意を引くのに少し苦労していました。プロバイダーは接続されたVoIP電話しか持っていませんでした...まあ、あなたは推測できるでしょう。

あなたは私を信じないだろうと想像しますが、それは真実であり、ブロゴスフィア上の記録事項です :)


1

これが興味深い答えになるかどうかはわかりませんが、私もコーダーです。私は最後のWebサイトを完全に本番環境でコーディングしましたが、自分のPCにはバックアップがまったくありませんでした。16時間の連続作業の後の悪い日、私はパーティションを空にする必要がありました、そしてそれをする最も速い方法はそれをフォーマットすることでした。fdisk -lフォーマットしなければならないパーティションの名前を確認するために走りましたが、残念ながら間違った行を読み取ってフォーマットしました。

私は6か月ほどの仕事を失いました。

幸いなことに、同じことを2回目に行うと、すでにその方法を知っているため、より速く、より速くできます。これでウェブサイトが公開されました。そして、私はバックアップを持っています:=)


6か月の作業に対する+1
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.