最高のシステム管理者の事故[終了]


87

私はあなたが持っているシステム管理者の事故の面白い話を探しています。CEOの電子メールの削除、間違ったハードドライブのフォーマットなど。

答えとして自分のストーリーを追加します。


3
参照してくださいserverfault.com/questions/5066
Zoredache

14
これは本当に質問というよりも世論調査のようなものです。これはおそらくコミュニティwikiに設定する必要があります。
ゾレダチェ2009年

7
うん、これは間違いなくコミュニティウィキでなければなりません。質問の意図では、しかし、私のお気に入りの物語は、500マイルの電子メール-ibiblio.org/harris/500milemail.htmlです -もちろん、それは私ではありませんでした。
ミハイリンバシャン2009年

500マイルはただ素晴らしい
ヒューバートカリオ

これは「最悪のシステム管理者の事故」と呼ばれるべきです。
リリンド

回答:


133

Linuxの「killall」コマンド(指定された名前に一致するすべてのプロセスを殺す、ゾンビの停止に役立つ)とsolaris「killall」コマンド(すべてのプロセスを殺す、システムを停止する、実動サーバーを停止するのに役立つ)ピーク時間の途中で、同僚全員に1週間あなたを笑わせる)。


74
そこに行って、それをしました。その後、solaris-boxesでkillall-commandのエイリアスを作成しました:alias killall = 'echo ORLLY?' =)
司令官キーン

29
Solarisでは、「ifconfig -a4」(すべてのインターフェイスのIPv4情報を表示)と「ifconfig -a 4」(すべてのインターフェイスを0.0.0.4に設定)との間にも重要な違いがあります。
ザンチー2009

3
+1「おっと、この風はソラリスにログインしていますか?」
マークハリソン

4
@司令官、あなたのコメントに賛成票を投じるつもりでしたが、この瞬間にちょうど 42の賛成票があります...私はちょうどできませんでした
マッシモ

5
また、hostname -fLinux では、Linuxで完全修飾ドメイン名を出力します。Solarisでは、ホスト名をに設定し-fます。
200_success

73

私は、当時Netscapeの製品であった企業Webプロキシを担当していました。管理フォーム(Webベースのインターフェイス)で遊んでいると、[ユーザーデータベースの削除]という大きな(そして赤だと誓う)ボタンがありました。問題ない、と思った。私がそれを打ったときにそれが私に与えるオプションが何であるか見てみましょう。オプションがない場合は、確認プロンプトが表示されます。

うん、確認なし。オプションなし。これ以上のユーザー。

だから、Solaris Sysadmin氏のところに行き、私は彼が答えたテープからの復元が切実に必要だと言った、「私はその箱をバックアップしない」。

「ああ、また来て」私は反論した。

「私はその箱をバックアップしません。バックアップローテーションに追加するもののリストにありますが、私はまだそれに行っていません。」

「このサーバーはほぼ8か月間運用されています!」私は叫びました。

肩をすくめて、彼は答えた。"ごめんなさい。"


50
これは間違いなく、これらの厄介な「本当によろしいですか」について不平を言うすべての人々のための物語です。ダイアログ;)
MikeyB 2009年

45
私は...あなたが彼に叫んするものでなければならない本当にわからないんだけど
Mikeage

14
これは本当に偶然ではありません-あなたは...男に来て、目的のDeleteユーザデータベースボタンを押す
ウェインKoorts

5
ええ、あなたは正しいです。ボタンを押すことは偶然ではありませんでした。実際にデータベースを削除するのは偶然の部分でした。なんでも
...-squillman

7
そのボタンの後に2つまたは3つの確認プロンプトが表示されているはずです。ユーザーデータベースを削除すると便利な機能はどうですか?私はボタンをそこに置いたプログラマーを完全に非難します。そして、データベースがバックアップされなかったという事実。「天才には限界があるかもしれないが、愚かさには障害はない。」(エルバートハバードへの属性)。人間が好奇心を持たないという前提で構築することは、不注意な類人猿が単に災害を構築することです。
ジャレッドアップダイク

66

何年も前に私が働いていた会社には、NT 4.0サーバーの夜間バックアップをJazドライブ(大容量zipディスクなど)で実行するクライアントがいました。

バッチファイルを設定し、これをスケジュールされたジョブとして一晩実行しました。毎朝、ドライブから昨晩のディスクを収集し、夕方に出発する前に、シーケンスの次のディスクを挿入しました。

とにかく、バッチファイルは次のようになりました(JazドライブはドライブF:)...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

とにかく、ある夜、彼らはディスクを入れるのを忘れました。ドライブFへの変更は失敗しました(ドライブにディスクがありません)。そして、バッチファイルは走り続けました。バッチファイルの既定の作業ディレクトリですか?C :. 初めてバックアップルーチンがバックアップしていたサーバーを破壊するのを見たことがあります。

その日、システム管理(および例外処理)について少し学びました。

ジム。

PS:修正ですか?「deltree / y F:\ *。*」。


57
... Jazドライブとは何ですか?私は本当に古いですか?
スペンサールポート2009年

3
それはIOMEGAのことでした(Zipドライブを覚えていますか?)Zipドライブの兄であり、小さな窓のあるプラスチックケースの中に入れられ、挿入されたときに、頭のないハードディスク、ちょうど大皿のようでしたドライブ、ドライブはヘッダーを挿入しました。どこに1または2ギガバイト、高価な、と過熱する傾向があるので、読者(これは古いIOMEGAボスで言った)の内側にカートリッジを残してお奨めていなかったような
アンドール

3
Hehe、私はjazドライブが、死んでも関係のないzipドライブと比較して説明されるのが好きです。
ルーク

2
もしあなたが年をとったと感じたら、deltreeを見たことがないシステム管理者がいます。
ジョセフ

5
多くのプログラマーに、状態を変更する操作を試みても失敗し、前の状態のままになる可能性があることを説明する必要がありました。何か危険なことをしようとすると、成功したかどうかを確認する必要があります前の状態にある必要があります。なぜこれを説明する必要があるのですか?
カリート

61

root @ dbhost#find / -name core -exec rm -f {} \;

私:「あなたは入ることができませんか?OK。DB名は何ですか?」

Cu:「コア」。

私:「ああ」


3
その後、「file」コマンドの使用がクリーンアップcrontabに追加されました... :)
MikeyB 2009年

3
まあ神....
squillman

4
なんてこった...うわー。私はこれについて心に留めておきますので、私は決してしません。
グレンウィレン

60

私は、誰もが二度と二度としないかのように、「私が若かったとき/緑だったとき」で彼らの物語を修飾する方法が大好きです。事故は、最も経験豊かなプロでも起こる可能性があります。

私自身の最悪の瞬間はとても悪いので、私はそれについて動getを覚えています...

運用データを含むSANがありました。会社にとって重要です。私の「メンター」は、パーティションを拡張してディスク領域を解放することにしました。これがどこに向かっているのかわかりますか?彼は、SANソフトウェアは実稼働時間にこれをライブで行うことができ、誰も気付かないと言いました。警報ベルは鳴り始めたはずですが、目立って静かでした。彼は問題なく「以前に何回も」それをやったと言った。しかし、ここにそれがあります-彼は「本当によろしいですか?」というボタンをクリックしてくれました!私がこの会社に不慣れだったので、この男は彼が話していることを知っていると思いました。大ミス。幸いなことに、LUNが拡張されました。悪いニュースは... Windowsボックスでディスク書き込みエラーが表示され始めたときに悪いニュースがあることを知っていました。

茶色のズボンを着て良かったです。

昼食時に1TBのデータが消えた理由を説明する必要がありました。それは本当に、本当に悪い日でした。

それは実際には良い原則です-あなたが疑問を持っていることをする前に、何かがうまくいかなかったら経営陣に説明しなければならないことを想像してください。あなたの行動を説明する良い答えが考えられないなら、それをしないでください。


17
最後の段落の+1-「あなたの手に座って」テクニック、熟考のための1つの重要な分
アンディ

12
しばらくの間、ライブシステムで作業した後に得られる特定のスキルがあります。危険なものとそうでないものに対するクモの感覚です。ルートプロンプトでreturnを押す前に1秒余分に一時停止する、またはSQL更新ステートメントに適切なwhere句(select count(*)で既に実行されている)があることを確認するなど。
jplindstrom 2009

18
「続行する前に履歴書を印刷しますか?」のようなポップアップが必要です。..そして、唯一の選択肢があります:「はい」
ウォーレン

最後の段落のアドバイスのための+1
Jeroen Huinink

3
+1、同上。システム管理者の友人から、タイピング速度の低さに関する年次パフォーマンス評価に問題があったと聞いたことを覚えています。ゆっくりと思慮深く」。
MadHatter

54

Nagiosはある朝、営業時間外に重要でないサーバーに接続できないと言ってきたときに、私たちにpingを送りました。OK、サーバールームにハイキングします。これは古いサーバーで、'02年に購入したDell 1650であり、1650にハードウェアの問題があることがわかっていました。PFYは電源ボタンを刺します。なし。DRACがないと、シャーシの電源を入れずにBMCログを調べる方法がないため、もう一度押して5秒間押し続けて「電源を強制的にオン」にします。これにより、BMCのエラー保護が無効になります。

マシンはPOSTを開始してから、再び停止します。私はその上に立って「煙のにおいがする」と言います。サーバーをレール上に引き出し、電源の1つが暖かく感じるので、PFYがサーバーを引き出し、ボックスを閉じようとします。「いいえ、それは電源の煙ではなく、マザーボードの煙です。」

ケースを再度開けて、燃えるような臭いの原因を探します。インダクタコイルとコンデンサーがマザーボードの電圧レギュレーターから吹き飛ばされ、すべてに溶融銅とコンデンサーグープが吹き付けられ、大量のものを短絡させ、基本的に大きな混乱を引き起こします。

私にとって最悪の部分は、焼けたマザーボードの臭いと電源の焼けた匂いの違いを認識するのに十分なハードウェアを吸っていたことを認識していたことです。


17
このジョブの選択基準には次のものが含まれます。ブリリアント。
mlp 09

13
私の相棒は、これまでドライブレールのセットをディスクにねじ込み、回路基板に挿入して短絡させました。かなりピンクの煙。非常に際立っています。
squillman

47

3日前(真剣に)学校のサーバーにリモートでログインし、Windows Server 2008ファイルサーバーにService Pack 2をインストールしました。

私は夜遅くに必要な再起動をスケジュールすることにしました。教師は年末のレポートカードを終了するためにログオンしません。次のように入力しました:

 23:59 "shutdown -r -t 0" 

...それはうまくいったかもしれない。

しかし、次に私は自分自身を推測しました。「シャットダウン」構文は正しいですか?入力して使用方法のヘルプを表示しようとしました

 シャットダウン/ h 

...そして、すぐにRDP接続を失いました。パニック、私は構文のためにGoogleを見つけました。クイック検索の結果、シャットダウンのServer 2008バージョンには/ hスイッチが含まれていることがわかりました。これは(ご想像のとおり)マシンを休止状態にします。

教師は数分以内に私に電話をかけ始め、作業していたレポートカードを開けたり保存したりできなくなったことを報告しました。私がオフサイトにいて、サーバールームがロックされていたため、学校の校長に直接電話をかけて、マシンの電源を入れるプロセスを彼女に説明しなければなりませんでした。

今日、私はすべての人に自家製のクッキーを謝罪の形で持ってきました。


32
コマンドラインでの欠陥のあるユーザーインターフェースデザインの完璧な例:「最小サプライズの原理」に何が起こったのか?
メイ

9
DOS / Windowsでは、そうではありませんか?
ジャレッドアップダイク

3
通常は/?勝つのが、UNIXから移植または-hまたは/ hである(MSで、このようなかなりの数を含む)UNIXの人々によって書かれているユーティリティがたくさんあります
リチャード・ガズデン

6
..butあなたはまだ常にしてみてください/?最初に!
ウォーレン

14
だから私はLinuxが好きです。man shutdown。私は私がで問題を引き起こすつもりはないことを知っているman
ジョシュ

37

以前の仕事では、社内に入ってきたメール、出て行ったメール、または留まったメールをすべてログに記録してアーカイブする独自のシステムがありました。

メールボックス全体を吹き飛ばしましたか?問題ない!誰かが1週間、1か月、1年前にあなたに送ったメールを探していますが、誰がそれを送ったのか、件名が何であったのか思い出せませんか?問題ない!2月からすべてを特別なフォルダに再配信します。

ある時点で、会社のCEOが競合他社と疑わしい内部の営業担当者との間を行き来するメールを監視する必要が生じました。そこで、毎晩実行するスクリプトをセットアップし、前日から関連するメールをCEOに配信しました。問題ない!

約1か月後、二重プラスの緊急問題の言葉が高いところから降りてきました。CEOが$ OTHERCOMPANYに送信されたメールのリストを読んでいると、彼はこのメールに遭遇したようです。

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

当然、CEOは重要な人物であり、Outlookのすべての「開封確認を送信」ダイアログをクリックするのに忙しく、すべてを送信するようにクライアントを構成していました。監視フィルターによってキャッチされたメッセージの1つに、受信確認要求が設定されていました。Outlookが何をしたと思いますか?確かに「秘密」の監視を盗みました。

次のタスク:メールフィルターにルールを追加して、CEOからその会社への受信確認の送信をブロックします。はい、それは最も簡単な方法でした。:)


3
しかし、それは私の国では合法ではありません。まったく。
マフ

1
ああ、まあそれはあなたの国です。:)カナダでは、大丈夫です。
MikeyB

7
自社のサーバーに出入りするメールを監視することは違法ですか?あなたはどの国に住んでいますか?
アンドリューエンスリー

1
ニュースピークの+1
ファハドサダ

36

ああ、私の足はまだ10年ほど前でした。すべてのプログラマーのコンピューターにバッテリーバックアップをインストールすることができました。また、停電を警告して適切にシャットダウンするためにソフトウェアをロードすることも望んでいました。

それで、私はそれを私のコンピュータにセットアップして、もちろんすべてを最初にテストして、それがすべてうまくいったことを確かめます。電源コードを外すと、画面にメッセージが表示されます。「外部電源が失われ、システムのシャットダウンが開始されました」。

だから私は、ちょっとクールだと思った。しかし、なんらかの奇妙な理由で、そのメッセージをネットワークメッセージとして送信したため、社内の200以上のコンピューターすべてがそのメッセージを受け取りました。

ええ、マスフリークアウトについて話してください!!

その場所でしばらく頭を低くしていた!


3
ハハ、ここで私の友人に「ネット送信」と約1300人の受信者で起こったことのように聞こえます:
-squillman

10
あー 私も大学で「ネット送信」をしました。「これを無効にしなければならなかった」と思った。バディン!ラボ全体で、コンピューターがメッセージを発していました。私はネット管理者に謝罪することにしました。そして、途中で、私が渡したすべてのコンピューターがメッセージを持っていました。/ため息
マットシモンズ

3
うん、そこに恥の散歩!友達は椅子から出られませんでした。電話にも応答しませんでした。
-squillman

10
母鉱山ネットの友人が学校で皆をsend'd「!HELP私は部屋114の中に閉じ込めています」と当然の60秒後の人々の小さな軍隊はメッセージ送っていた人を見つけるために上がって
マーク・ヘンダーソン

2
実際に、この機能を使用して、短大のシステム管理者をパンクさせました。彼から来たように見える偽のAVメッセージとシステムシャットダウンメッセージですべてのコンピューターラボをクリアしました。彼は強く、我々が犯人であったが、私と私の仲間それぞれがアリバイを持っていた(彼はクラスにいたと私はクラスにいた間、彼は二番目に送られたとき、私は最初のものを送った)とコンピュータは、一般的なラボのログオンを持っていた疑いがある
Shial

35

Solarisマシンで「sys-unconfig」コマンドを使用して、マシンのネームサービス、IPアドレス、およびルートパスワードをリセットすることがよくあります。私はユーザーシステムにいて、ビルのインストールサーバーにログインして何かを(rootとして)調べましたが、別のマシンにログインしたことを忘れて(説明的な「#」プロンプト)、「sys-unconfig」コマンドを実行しました。

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

その「接続が閉じられました」というメッセージがゆっくりとパニックになりました...そのコマンドを実行したときに、どのマシンにログインしていましたか。

これの最悪の部分は、同僚が私に与えた苦労ではなく、1か月後に同じことをしたことでした。


24
ああ、古典的な「私はどのマシンにいるの??」パニックの瞬間。そこに行ったことがある。あなたの痛みが分かります。
sysadmin1138

2
私も。それを経験した人なら誰でも、「氷の冷血」という言葉の意味を正確に知っています。
マットシモンズ

21
私のシェルプロンプトは、常にユーザー名とホスト名が含まれる理由は...ある
derobertは、

2
私はかつて、異なるマシンにログインするためのエイリアスを設定し、異なる色の背景を取得して、自分がどのマシンにいたかをさらに明確に認識できるようにしました。
Zitrax 09年

私は、サーバーと私のローカルマシンの両方でLinuxを使用したように、私は多くの場合、ルートサーバーで開かれたプロンプトと私のPCを持っている、サーバーは、区別のために赤のプロンプトを持っている
ヒューバートKario

27

私はかなり良いものを持っています。確かに、それはシステム管理者としての私の時間より前でしたが、それでも技術に関連しているので、私はそれを追加すると思いました。

当時、私はUSAFのsatcom / wideband技術者として働いていました。最近、専門学校を卒業したので、私は韓国に駐在していることに気づきました。駅に到着してまもなく、しばらくそこにいた「ビッグガイ」と一緒に南下し、実際に実世界の(つまり「生産」)機器で作業する機会が生まれました。

私は乗組員と一緒に行きましたが、熱心な若い技術者として、ライブの軍事音声とデータトラフィックを通過させる実際の機器を手に入れる可能性に非常に興奮していました。

ゆっくりと始めるために、彼らは私にマニュアルを渡し、予防保守セクションに目を向けて、いくつかの大きなデジタルマルチプレクサーで満たされた4つのラックの方向を教えてくれました。機器は十分に簡単で、ハイテク学校でも同じ機器を取り上げました。

マニュアルの最初のページ。「ディティガルマルチプレクサに電源を投入します。両方の背面スイッチをオンの位置にし、機器の電源がオンになるのを待ってから、テストを開始します。」見上げたところ、すでに電源が入っていました!

確かに困っていました。先に進む方法がわからないので、私はベストを打ちました。

彼は私を見て、「いいえ、いいえ、大丈夫です。チェックリストのその部分は無視できます」と笑いました。その後、彼は私の顔の表情に気づいたので、(学校で絶対にチェックリストのどの部分も無視しないように教えられていたので、そうするなら特定の死と破壊でした)彼は真剣な表情をしました顔を向けて、「その部分だけを無視し、残りの部分を手紙に従ってください!」と言いました。

忠実に、私は多段階のPMの指示を実行しました。ハマグリとして満足し、彼らがそのような低ランクの(しかしスマートな)技術にこの重要な仕事をさせていることを誇りに思っています。

これらの巨大なマルチプレクサの5番目と6番目の予防保守チェックリストのどこかで、私は自分の周りの活動レベルが増加していることに気付き始めました。電話が鳴り、人々は素早く動いていました。風変わりな外観が交換されていました。

最後に、人々のグループが私に駆け寄り、私を倒した上級技術者の一人が率いました。

「ねえ!データトラフィックに大きな障害が発生しており、作業中のラックに戻る経路を隔離/追跡しました。奇妙な現象が見られますか?」

(その時点で、彼は私がPMを実行していた最初のマルチプレクサのグループに彼女を連れて行った別のトラブルシューティング担当者によって切断されました。)

「聖なるナツ!彼らはオフになっている!彼はそれらをオフにしている!!!!」

短い順序で、私は彼らが急いでマニュアルの最初のステップを実行したのを見て、「両方の背面スイッチをオン位置に...」 、重要な機器をオフにすることにより。

私の知恵を怖がって、私は彼が私が従っていたチェックリストを手渡した、私はまったく逸脱していないと誓った。彼が指示したように、「手紙に向かって」私がそれに従ったこと。

しばらくして彼は笑い、問題がどこにあるのかを指摘した。

マニュアルでは、予防保守チェックリストの最終ステップは次のとおりでした。

「プローブの最終読み取り値を記録し、フロントパネルを拭き取り、すべてのほこりや微粒子を除去してから、両方の背面の電源スイッチをオフの位置にします。」

:)


私は今、これが何を意味するのかわからない
ジョーフィリップス

マシンの電源をオフにするという最後の手順は少し奇妙に思えませんでしたか?ただ疑問に思う。
アンドリューエンスリー

2
おそらく奇妙に思えたが、彼は軍隊にいたことを忘れないでください。軍隊を指揮しようとして、すべての兵士が「待って、本当ですか?その命令はおかしく聞こえます」と想像してください。
キラレッサ

26

それは一種のシステム管理者の事故です。システム管理者が時々、ポイントAからポイントB(リフトのない建物の階段のいくつかのフライトによって常に分離されているように見えるポイントA)からポイントBに物理的に多数のマシンを運ぶ必要がある限りです。その日のn回目の旅行で、私は地下の積載レベルから3便上がったブリーザーに立ち寄り、降りてくる人とおしゃべりをして、開いた階段の内側の手すりに乗っているフルサイズのタワーを支えましたそして...まあ、あなたは推測した...それに対する私のグリップをわずかに失った。それは井戸をまっすぐ下に急落し、それが底に達したとき、その...そのための機能ではそれほどではありません!合計回収可能部品:2枚のRAM、1枚のフロッピードライブ、1枚のISDNカード(神はHermstedtのエンジニアに祝福を!)他のすべてが割れたか、

神の恵みによって、誰も下を歩いていませんでした。それは、ありがたいことに上司の最初でしたが、仕事を続けることができました。しかし、1時間かそこらのために非常に病気に感じた。

道徳:重力は常に勝ちます!


2
残骸の写真を撮らなかったのですか?
プペノ2009年

5
@ J.Pablo-いいえ、カメラが大きくて化学物質が入っている10年以上前のことだと思います。最近やったら、YouTubeで10分以内に結果が出たでしょう!
avstrallen 2009年

実話:これは9年前に私に起こりましたが、エアコン9階の窓から起こりました。それは私のせいではなく(誰かを助けているだけでした)、負傷者はいませんでしたが、何も気分が悪くなりまし
imgx64

26

誰かのためにシステムをリロードしていましたが、手動バックアッププロセス中に、「使用している他のプログラムはありますか?」という質問をしました。「コンピューター上で他に重要なことはありますか?」

彼は数回「いいえ」と言った。

ドライブを納得させ、フォーマットしました。

約30分後、彼は「なんてこった」と言い、両手を頭に置いた。

彼は専門のプログラムで10年以上にわたって本のスクリプトに取り組んでいたことがわかりました。これは、プログラムがそのプログラムファイルディレクトリにユーザーデータを保存するために使用したときに戻ったもので、私はそれを見逃しました。

うわぁ

彼は私に怒っていませんでしたが、それは落ち着いた感じでした。


7
あなたは彼に貴重な教訓を教えました。バックアップは重要です
MikeyB

5
これを読むだけで本当に痛い。とても痛い。レッスンは確実ですが、
...-マフ

かわいそうな人にはまだいい経験だ。彼は30年間働いていて、あなたの前で心臓発作を起こしていたかもしれません。
半分

私は似たようなことをしたことを覚えています。明らかに、私の叔父は彼の仕事が彼に与えたこのカスタムウィンドウ会計アプリのためにたくさんの顧客のようなものを持っていました。プログラムファイル/ sighにありました。幸いなことに、カスタム保険アプリがインストールされている父親の仕事用PCを修理したとき、それを思い出しました。
PHGamer

@phgamer、あなたの言語を見てくださいとお願いできますか?これはそんなに残念な場所ではありません。
Chopper3


23

これは私には起こりませんでしたが…

私は、クライアントが提供するLinuxマシンで実行されるソフトウェアを製造する会社で働いていました。基本的に、マシンを「引き継ぎ」、仕様に合わせて完全に構成し、すべての管理と監視を行います。本質的に、私たちは10〜15人のシステム管理者のチームであり、数百の顧客に対して数千のサーバーを管理していました。間違いは必ず発生します。

私たちのチームの1人がサーバー上でいくつかの問題(バックアップ、私は信じている)を発見し、彼がfsckを実行することを決定しました。彼は関連するすべてのサービスを停止し、システムに最近撮影したバックアップがあることを確認してからfsckを実行しましたが、ファイルシステムがマウントされていると不平を言いました。私たちはリモートであり、リモートアクセス(DRAC、ILOなど)を持っていなかったため、彼はfsckを実行できませんでしたが、注意すればファイルシステムをマウントした状態で安全に実行できると確信していました。

彼は、予測可能な結果でルートパーティションでfsckを実行して自分で試してみることにしました。ルートパーティションが破損し、起動できなくなりました。

混乱して、彼は行き、私たちのチームリーダーと話をしました。リードは、それができないと確信していたと言い、チームメンバーは「できる」と言って、リードのキーボードを取り、リードのルートパーティションでfsckを実行することで、できることを示しました。どのHISルートパーティションが完全に破損しています。

最終結果?チームメンバーのテストのおかげで、顧客データは失われません。2日間の従業員の生産性は失われましたが、それは価値があり、顧客のマシン上のデータよりもはるかに少なくなりました。そして記録のために?マウントされたドライブでfsckを実行できますが、これはデータの検証のみです。修理しないでください。それがチームメンバーの間違いでした。

-

自分のストーリーを追加するために、私は同じ会社で働いていて、ユーザーのパスワードをリセットしようとしていました。古いパスワードハッシュを追跡し、パスワードの複製を拒否したため、システムは必要なパスワードの設定を拒否しました。メカニズムは単純でした。データベース内の最新のハッシュに対してパスワードを検証しました。

(そして、記録のために、それは共有アカウントであったため、古いパスワードである必要があり、誰もが新しいパスワードを知っていることを確認することは実用的ではありませんでした)

私はユーザーデータベースに移動して新しいレコードを削除し、古いレコードを使用することにしました。それはすべてSQL(古代バージョンのSybaseを実行)であるため、簡単です。最初に、レコードを見つけなければなりませんでした。

SELECT * FROM users_passwords WHERE username='someuser';

彼が保持したかった古いレコードを見つけました。その前にさらに2つありました。私は賢く、古いレコードよりも新しいものをすべて削除することにしました。結果セットを見ると、データベース内の古いパスワードはID#28であり、新しいパスワードはID #several 1000(非常にビジーなシステム)であることがわかりました。それは簡単です。古い行はすべて> 28でした。

DELETE FROM users_passwords WHERE id > 28;

単純な行の整理を行い、「212,500行の影響」を確認することほど悪いことはありません。幸い、2つのマスターデータベースサーバー(ユーザーID付き)がありましたが、Sybase(少なくともこのバージョン)は自動レプリケーションをサポートしていなかったため、古いレコードを自動的に消去しませんでした。users_passwordsテーブルのダンプを取得して再インポートするのは簡単なことでした。それでも、かなり大きな「ああf ** k!」瞬間。


そのため、SQLに「LIMIT」ステートメントがあります;)
hayalci 09年

20
さらに重要なのは、最初に「SELECT * FROM xxx」として「DELETE FROM xxx」を常に発行する理由です。次に、表示内容を再確認し、SELECT *をDELETEに置き換えます。
sleske 09年

1
FYI、I / Oの変更のwでも、fsckは、それはすべての後にジャーナルのリプレイを行い、マウントext3の上安全である...よく分からない
derobert

14
いいえ、それが常にbegin tranを最初に発行する理由です。その後、意図したよりも多くの行が影響を受ける場合、ロールバックを発行できます。
pipTheGeek

1
@Danこれは他のRDBMSとほぼ同じです。ステートメントを実行し、影響を受ける行をチェックするだけで、更新の結果をチェックするための選択を用意して、コミットまたはロールバックするなど、チェックを計画済みにしてください。私は、MS-SQL 2005でのT-SQL文でWHERE句強調するために忘れてしまったとき、それはかつて私を救った
pipTheGeekを

22

私のお気に入りのもう一つ:

システムにコンピューターとローカルレーザープリンターをセットアップするとき、両方をコンピューターのUPSに接続するという素晴らしいアイデアがありました。デスクトップのUPSに接続したときに、ローカルレーザープリンターで印刷しようとしたことがありますか?よくわからない場合は、すべてのアンプを引っ張る傾向があります...これによりコンピューターが再起動します...そして、印刷ジョブが終了しない...!

電話をかける: ' 印刷するたびに、コンピューターが再起動し、印刷されません!!! '?

おっと!

JFV


1
ああ、私は今、私の教会でそれが起こるのをただ待っているだけです:)
squillman

2
ほとんどのUPSメーカーは、「レーザープリンターを接続しないでください」と言っています。
アンドリュー

22

顧客のライブパトロンデータベース上のWHERE句のないDELETEステートメント。


9
「取引開始」FTW!
spoulson

6
ライブデータベースを削除するはどこにいましたか!
イアン・ボイド

1
それは一種の通過儀礼です。すべての駆け出しのDBAは、少なくとも1回はそれをしなければなりません。うまくいけば、あまり重要ではない何かに...
RainyRat

22

型付きkill 1ルートとして。initそして、彼女の子供たちはすべて死にました そして、すべての子供たち。などなど。

入力するつもりだったのは kill %1

私は私がやったことを実現した後、私はのコントロールパネルに走ったBIGウールのベール選別機や非常停止ボタンを押してください。私はそれを制御するソフトウェアを殺したばかりだったので、これはマシンがそれ自体を破裂させるのを止めました。


1
あれは私を笑わせた!過去に大型機械を扱ったことがあるので、制御システムを評価できます。
SpaceManSpiff 2009年

1
BSDでは、kill -1 1により、initはinittabまたは/ etc / ttysを再読み取りしました。「マイナス」をオフに残すことは...結果をもたらした
kmarsh

2
その緊急停止ボタンに感謝します!:-)
staticsan 09

「ソフトウェアをいじってハードウェアに損傷を与えることはできません」と言うことができないため、+ 1。
outs

21

停電の最中に、UPSが構成された負荷の112%で稼働していることがわかりました。当時はジェネレーターで実行していたので、これはそれほど大きな問題ではありませんでした。

そこで、UPSの電力使用量を削減するために、バックアップ電源ケーブルを引き回しました(2つがあり、1つは他のものよりはるかに大きかった)。サーバールームを実行するネットワークスイッチに到達しました(これは、会社のすべての内部サーバーを備えたサーバールームであり、顧客は別のサーバールームのサーバーに面しています)。このスイッチは、3つの電源を備えた大規模なエンタープライズクラスのスイッチでした。電源はN + 1であったため、スイッチを実行するために必要なのは2つだけでした。

ケーブルを取り出して引き出しました。残念なことに、他の2つは単一の電源タップに接続されていました。電源タップに接続された2つの電源の負荷が上がると、すぐに電源が切れました。その後、システム管理者はパニック状態になり、3番目のケーブルを差し込みました。スイッチは起動を試み、スイッチの全負荷を単一の電源に接続しようとしました。電源がシャットダウンする代わりに、顔から12インチではなく火花のシャワーで爆発し、サーバーのラックに飛び込んできました。

本能から横に飛び込もうとしたが、残念ながら私の左は壁で、右は非常に大きな6'4 "の施設の男だった。 Compaqラック(前面が薄いメッシュのラック)の全体をラックに入れることなく、施設の担当者に触れることなく。


2
印象的な飛躍のために+1。
RainyRat 2009年

1
ありがとうございました。デニスは、私が彼を倒さなかったという事実に感銘を受けました。
mrdenny

20

私のキャリアのある時点で、私が働いていた会社での法的な調査により、すべての電子メールは「今日」以降、特に指示がない限り保管する必要がありました。交換環境の毎日のフルバックアップを1年ごとに(約1 TBの夜)保管してから約1年後、スペースが不足し始めました。

Exchange管理者は、メールの8枚ごとのコピーのみを保存することを提案しました。これを行うには、数日分の交換データベースを復元し、必要な電子メール(調査のためにフラグを立てた特定の人)を抽出し、再アーカイブしました。彼らは、私たちのすべてのバックアップについて、メールの8日ごとにこれを行いました。交換には、「削除済みアイテム」がデータベースに8日間保持されるパラメーターセットがあったため、8日目が選択されました。

彼らが各アーカイブを終えた後、私は戻って、彼らがアーカイブしたものより古いバックアップを削除します。

TSMにはこれを行う簡単な方法がないため、バックアップデータベースからオブジェクトを手動で削除する必要があります。

今日と問題の日付の差を使用した日付計算により、ある日付より古いすべてのバックアップを削除するスクリプトを作成しました。ある日、約1か月分のバックアップを削除する必要がありましたが、日付の計算時にタイプミスを行い、日付を2007年10月10日ではなく2007年10月7日として入力し、スクリプトを実行しました。私は非常に重要な訴訟の一部である、誤って余分な月分のデータを完全に削除しました。

その後、スクリプトにいくつかの手順を追加して、データを削除することを確認し、削除する内容を示します...

幸いなことに、彼らは私たちが保存のために一生懸命働いたデータを使用したことすらなかったので、今でも仕事をしています。


5
1日1 TBの交換データ?すごい-皆さんは余分なExchangeバックアップ専用の365テラバイトを持っていましたか?それはあなたがそこに行っているいくつかの深刻なストレージです。
カールC

28
ヨーロッパにいた場合は1日しか失われませんでした:
PowerApp101 2009

20

長い一日またはパフォーマンストレースと巨大なメイン​​フレームのチューニングの後(すべてのスタンバイバックアップサイトが実際に再起動して完全に同期されることに同意するまでに数時間かかる獣を知っている)、指を伸ばし、満足したシャットダウンを入力しました-pラップトッププロンプトで、ふたを閉じ、メインケーブルからシリアルケーブルを引っ張り、冷たくて冷たいラガーを期待します。

私のラップトップがまだXを喜んで表示している間に、突然メインフレームがスピンダウンするという耳障りな音が聞こえます。

マシンが再び完全にオンラインになるのを待っている間に、ラップトップでACPIを動作させる時間があるので、ラップトップをcliシャットダウンしたくないと思いました。


メインフレームを下に回転させるとノイズが発生する場合は、フルスピードで上に回転したり、さらに悪いことに、回転したりしたくありません。
ミルチャChirea

16

この事故は起こりませんでした...しかし、言及する価値があります:

新しい回線で帯域幅テストを実施するために、頻繁に使用されるデータセンターに送られました。私は分界室/ IDFに着き、テストルーター用のラックの1つにスポットを見つけて接続し、テストを開始しました。残念ながら、実稼働中のボーダールーターが次のラック(ほぼ同じレベル)に正確にあるだけでなく、テストルーターと同じメーカーとモデルであることにも完全に気づきませんでした。

テストが完了すると、電源スイッチをオフの位置に押し始めました(...スローモーションで想像してください...)、そして、私が圧力をかけたように、私がルーターについていたことを私に明かしましたオフにすることは実稼働環境でした。心が止まり、ほとんど...まあ、あなたの想像力を使ってください。

私はデータセンターのMDFを恐ろしく淡い感じで残しましたが、同時に仕事ができて良かったです!


18
これらの地雷状況の1つであったかもしれないと想像してください。指でボタンを押すと、指がボタンを押したままになり、指を外すことができないか、サーバーがダウンします。ですから、あなたができることはすべてそこにあり、助けを求めて叫ぶことです。
トムリッター

20
笑..それについては考えていませんでした!ずっと良い話だっただろう。データセンターのネットワークエンジニアが身を寄せ合って、問題のさまざまな解決策を提案しているのを想像できます。たぶん、そのうちの1人が(SFが利用可能であれば)「馬鹿な技術者によってプッシュされたらルーターの電源スイッチを無効にするにはどうすればよいですか?」(+500バウンティポイント)
l0c0b0x 09年

21
私が働いた場所に似ている場合、解決策は、問題の指を素早く取り除き、大量のダクトテープに交換することです。(そして、テープを取り外すためにマシンのダウンタイムをスケジュールするつもりでしたが、テープが最終的に故障するまで18ヶ月間延期しました)。
イアン

16

誰かのアカウントを誤って削除し、名前を削除するはずのアカウントと混同してしまいました。Opps

クールな部分は、彼らが何が起こったのか決して知らなかったということです。彼らがログインできなかった電話を受けて、ペニーは私が削除したアカウントについて落ちました。

彼らと電話で話している間に、私はすぐにアカウントを再作成し、古いメールボックスを再接続し(ありがたいことにExchangeはすぐにメールボックスを削除しません)、古いユーザーファイルを指し示しました。

それから私は彼らのために私がちょうどリセットしたパスワードを忘れたために彼らを非難しました:)


9
言い訳に使用しなければならなかったボールを+1することと、ユーザーに嘘をつくために-1することの間で私は引き裂かれています。...-
バブ

22
ユーザーを非難するために+1
JJ01 09

16

私のGentoo Linuxボックスのtar.gzファイルを誤って間違った場所にインストールしてしまい、ファイルがいたるところに残ってしまいました。これは1999年頃の19であったに違いありません(当時のコメントありがとう)。

私がオタクであるため、各ファイルを手動で処理する作業からスクリプトを作成することにしました。

だから私は試しました:

tar --list evilevilpackage.tar.gz | xargs rm -rf

tarがプログラムが使用していたすべてのディレクトリをリストしていることに気づくのにそれほど時間はかかりませんでした。

CTRL-C!CTRL-C!CTRL-C!遅すぎる!すべてがなくなって、時間を再インストールします。幸いなことに、ボックスには重要なものは含まれていませんでした。


10
私は詳細をガミガミことを憎むが、私はGentooは2002年の周りに始まっかなり確信している
マット・シモンズ

ええ、1.0は2002年にリリースされました
。RedHat

彼が本当に筋金入りでない限り、Enoch Linuxは1999年12月に0.75をリリースし、2002年にバージョン1.0でGentooになりました
Shial 09

当時は母親の地下室に住んでいましたので、少なくとも2000年以前はその頃です。それがハードコアかどうかはわかりません。Slackwareの後の次の論理的なステップでした。
アンドリオイド2009

Slackwareには.tgzパッケージがありました。
マリウスゲドミナス

12

私は以前の人生の小さな部分として、会社のファイルサーバーであるネットウェア4:11ボックスを管理していました。入力が必要になることはほとんどありませんでしたが、必要な場合は、リモートコンソールウィンドウを開きました。

DOSを常に使用していたので、終了したら、当然「終了」と入力します。Netwareの場合、「終了」はOSをシャットダウンするコマンドです。幸いなことに、最初にサーバーを「ダウン」しない限り、シャットダウンできません。(ネットワーク/クライアントが使用できないようにします)したがって、コンソールで「終了」と入力すると、「最初に入力する必要があります」 「終了する前に」

コンソールセッションで「exit」と入力した回数と、「Down」と入力して「Exit」と入力した回数を尋ねると、「何をしようとしていたのか」がわかります。

そして、電話が鳴り始めます.....


8
一回以上??
BradC 09年

2
そのため、^ Dを使用してログアウトします。シェルセッションを終了するだけです。
ヒューバートカリオ

11

発生しなかった別のストーリー(ふくらはぎ):

私たちは毎日テープドライブに増分バックアップを宗教的に行っていました。

私たちはたまたま他の人に出荷するデータを含むテープを書きました。彼らは「私たちはあなたのテープを読むことができない」と言った。実際、どちらもできませんでした。または実際にはテープ。

別のテープドライブを購入し、インストールするまで息を止めました。

この話の教訓。必ずバックアップをテストしてください。


11

私が働いた最後の場所、私の同僚はサーバールームで彼と一緒に彼の子供を持っていました(なぜですか?私にはアイデアがありません!)。

彼は彼らがサーバーから遠く離れていることを確認し、5歳の彼に、どのサーバーにも触れてはならず、特に電源スイッチには触れてはいけないと説明した。

実際、彼はドアのすぐ近くにそれらを持っていました...(これがどこに向かっているのかわかりますか?)

少年はサーバーの電源ボタンには触れませんでした。いいえ、説明するのは簡単すぎます。代わりに、彼はドアの近くにある大きな赤いボタンを押しました...サーバールーム全体の電源を切るボタン!!!

電話回線はすぐに、Exchange、ファイルサーバーなどが利用できない理由を疑問に思い始めました...それをCEOに説明しようとしていると想像してみてください!

-JFV


4
宅配便業者に同じことをしてもらいました。システム管理者の事故ではありませんが、その後、突然、大きな赤いボタンの上に奇妙な金属の箱が現れました。
マーティ

「Molly Guard」も参照してください:catb.org/~esr/jargon/html/M/molly-guard.html
jay_dubya 09

私の兄弟は、父がかつて働いていた通信リンクサイトで3歳のときに同じことをしました。便利な床から18インチ離れた主電源スイッチを切り替えたときに、リンクネットワークの半分がダウンしました。幸いなことに、ネットワークが完全に複製されたので、トラフィックが失われなかったが、それでも...
staticsan

@marty- 適切な引用は、「なぜですか?わかりません。彼は3番目にいます。"何?" 「あきらめない」「ああ!それが私たちの行き止まりだ!」
ウォーレン

10

私はかつてAPC UPS監視ソフトウェアと戦いました。小さな会社であるため、小規模なUPSがいくつかあり、それらを監視するためにさまざまなサーバーがセットアップされていました。ほとんどのサーバーはLinuxでしたが、一部のサーバーはWindowsを実行していたため、APCソフトウェアはWindowsのみであるため、使用されたサーバーでした。

ただし、当時のAPCソフトウェアは、通信先のUPSが実行中のPCにも電力を供給していると想定するようにハードコードされていました。このサーバーはそうではありませんでしたが、停止するように指示するには遅すぎることを発見しました。また、残念ながら、リードプログラマーは会社の製品をパートナーにデモンストレーションしていました。これはWebベースのアプリであり、APCソフトウェアをシャットダウンしたくない同じサーバーで実行されていました...


1
ありがたいことに、Linux用のapcupsdがあります
ヒューバートカリオ

さて、私たちは今やる。この事件は10年前のことです。:
staticsan

8

新しいシステム管理者にService Managerアプリのツアーを提供していました。「このサービスを停止する必要がある場合は、このボタンをクリックしますが、日中は絶対にしないでください」と言いました。あなたは彼女のマウスボタンがどれほど敏感であるかを決して信じません!

2分後、サービスが再び開始され、誰も気付かないようでした。


8

ラックの後ろに押し込まれたタワーサーバーにつまずいて、途中でメインのCiscoルーターの背面に頭を打ちました。したがって、Catalyst 6500の前面にある電源装置に実際に電源コードがどの程度緩く取り付けられているかがわかります。

うん。サーバールームのフックにはヘルメットが付いています。私の名前がついています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.