サーバールームで何かが燃えています。どうすればそれがすぐに識別できますか?


454

先日、サーバールームからひどい燃えるような匂いがすることに気付きました。簡単に言えば、UPSユニットで燃え尽きるバッテリーモジュールの1つになりましたが、それを理解するまでに数時間かかりました。私たちがそれを理解できた主な理由は、UPSディスプレイが最終的にモジュールの交換が必要であることを示したことです。

ここに問題がありました:部屋全体が匂いで満たされていました。匂いがすべてに染み込んでいたので、においテストを行うのは非常に困難でした(言うまでもなく、私たちは頭がおかしくなりました)。臭いが最も強かったので、実稼働データベースサーバーをほぼ誤ってダウンさせました。重要な点は問題ないように見えました(CPU温度は60℃で、ファンの速度は問題ありませんでした)が、確信がありませんでした。たまたま燃えたバッテリーモジュールは、ラック上のサーバーとほぼ同じ高さで、わずか3フィートしか離れていませんでした。これが本当の緊急事態だったら、惨めに失敗していたでしょう。

現実的には、実際のサーバーハードウェアが燃焼する可能性は非常にまれであり、ほとんどの場合、UPSが原因であると考えています。しかし、複数の機器を備えた複数のラックを使用すると、すぐに推測ゲームになります。どの機器が実際に燃え尽きているのか、どのようにして迅速かつ正確に判断しますか?この質問は、部屋の大きさ、換気、場所などの環境変数に大きく依存することを理解していますが、どんな入力でも歓迎します。


34
@DeerHunterそれは一日の終わりであり、ビルに非常に少数の人々がいたことをありがとう。建設的な批判に感謝します。システムを維持することを決定する際に彼女が危険にさらした生活を監督者に必ず知らせます。
チャドハリソン

12
@hydroparadise -誰かが「と言う勇気持っている必要がありSTOP我々は右のこの事をやっていない」と。スーパーバイザーが安全規則を理解していない場合、脊椎を成長させ、角を切る衝動に屈しないことを除いて、実際にできることはあまりありません。
鹿ハンター

112
@DeerHunter:何か燃えるような匂いがするとき、適切な反応は何ですか?目に見える煙はなく、焦げた臭いだけです。データセンター全体をオフにし、数時間換気し、臭いが戻るまでサーバーを1つずつオンにしますか?小規模な25ラックのデータセンターでは1,000台のサーバーをチェックできますが、これは「臭い」のダウンタイムが長くなります。OPは目に見える煙や火を報告しませんでした。
ジョニー

24
@ジョニー-OPを引用して:「部屋全体が匂いでいっぱいだった。匂いがすべてに染み込んでいたので、においテストをするのは非常に難しかった(言うまでもなく、私たちは光に向かっていた)」部屋を換気し、体系的にトラブルシューティングします。それ以外は無責任です。
鹿ハンター

14
それで、臭いのOPの取り扱いに批判的なものは、臭いと火/煙の間で緊急性に違いがないことを示唆していますか?家で何かが燃えているにおいがするが、煙が出ず、アラームが聞こえない場合、あなたとあなたの家族を家から急いで911に電話しますか?
trpt4him

回答:


383

一般的なコンセンサスは、あなたの質問への答えは2つの部分にあるということです。

変な燃えるような臭いの原因をどのように見つけますか

あなたは、「方法」を非常によく把握している:

  • 「スニフテスト」
  • 目に見える煙/ hを探します
  • サーマル(IR)カメラで部屋を歩き、ホットスポットを見つける
  • アラートの監視およびデバイスパネルを確認する

さまざまな方法で問題をすばやく見つける可能性を高めることができます。多くの場合、監視の改善が最も簡単です。尋ねるべき質問:

  • 機器から温度やその他の健康警告を受け取りますか?
  • UPSシステムは、監視システムに障害を報告していますか?
  • 配電機器から電流引き込みアラームを受け取りますか?
  • 部屋の煙探知器は監視システムに報告していますか?(そして、彼らはできますか?

Big Red Switchを打つときと打つときのトラブルシューティングのタイミングはいつですか?

これはもっと興味深い質問です。
大きな赤いスイッチを押すと、急いであなたの会社に莫大なお金がかかる可能性があります:クリーンエージェントのリリースは数万ドルになり、緊急電源オフ後の停止/回復コスト(EPO、「部屋を落とす」) )は壊滅的です。
電源のコンデンサが飛び出し、部屋の臭いがしたため、データセンターを落とすことは望ましくありません。

逆に、サーバールームで火災が発生すると、会社のデータ/機器、さらに重要なことにスタッフの命が奪われます。
「あの変な燃焼臭」のトラブルシューティングは安全性よりも優先されるべきではないため、「発射前」の状態のトラブルシューティングに関する明確なルールを持つことが重要です。

以下のガイドラインは明確に定義された他の手順/規則がない場合(またはそれに加えて)私が適用する個人的な制限です-彼らは私に役立っており、あなたを助けるかもしれませんが、私を殺したり、明日解雇されますので、ご自身の責任で適用してください。

  1. 煙や火が見られたら、部屋を落とす
    これは言うまでもありませんが、とにかく言ってみましょう:アクティブな火(またはすぐにあることを示す煙)がある場合は、部屋を避難し、電源を切り、火を放電します抑制システム。
    例外が存在する可能性があります(何らかの常識を行使します)が、これはほとんど常に正しいアクションです。

  2. トラブルシューティングを行う場合は、少なくとも1人の他の人を常に関与させる
    これは2つの理由によるものです。まず、データセンター内をうろうろすることは望ましくありません。また、突然、ラックが下に並んでいるのに上がってしまい、誰もあなたがそこにいることを知りません。第二に、他の人はトラブルシューティングと部屋を落とすことの健全性チェックであり、Big Red Switchを呼び出すために電話をかけると、二人目が決定に同意するという利点があります(キャリア制限の側面を避けるのに役立ちます誰かが後で質問した場合のそのような決定の)。

  3. トラブルシューティング中は慎重な安全対策を講じ
    てください常にエスケープパス(行の開いた端と出口への明確なパス)があることを確認してください。
    EPO /消火器リリースに誰かを配置しておいてください。
    消火器を携帯してください(Halonまたは他の洗剤をお使いください)。
    上記のルール#1を思い出してください。
    疑わしい場合は、部屋を出てください。呼吸に注意してください。人工呼吸器または酸素マスクを使用してください。これは、化学火災の場合にあなたの健康を救うかもしれません。

  4. 制限を設定し、それに固執する
    より正確に、2つの制限を設定します。

    • 条件(「これをどれだけ悪化させますか?」)、および
    • 時間(「リスクが大きくなる前に問題を見つけ続ける期間」)。

    あなたが設定した制限はまた、ときに、あなたのチームが被災地の正常なシャットダウンを開始させるために使用することができDOパワーを引き出し、あなたがアクティブなマシンの束をクラッシュしていない、とあなたの回復時間が大幅に短くなりますが、ということを覚えているだろう正常なシャットダウンに時間がかかりすぎる場合は、安全のためにいくつかのシステムをクラッシュさせる必要があります。

  5. 腸を信頼する
    いつでも安全性が心配な場合は、トラブルシューティングを呼び出して部屋を片付けてください。
    あなたは腸の感覚に基づいて部屋を落とすかもしれないし、しないかもしれませんが、(比較的)安全に部屋の外に再グループ化することは賢明です。

差し迫った危険性がない場合は、EPOまたはクリーンエージェントのリリースなどの抜本的な措置を講じる前に、地元の消防署に持ち込むことを選択できます。(とにかくそうするように言われるかもしれません:彼らの任務は人々、そして財産を守ることですが、彼らは明らかに火事に対処する専門家ですので、あなたは彼らが言うことをすべきです!)

コメントでこれを取り上げましたが、回答にも要約されているかもしれません-@ DeerHunter、@ Chris、@ Sirex、および他の多くが議論に貢献しました


30
大学私は新しいデータセンターの設置に行きました。彼らは非常に洗練されたEPO /火災抑制システムを実装しました。それが保護していた機器は数百万ドルであり、学校の医療部分の数百万ドルの研究にも使用されていました。明らかに、必要な場合は赤いボタンを押す必要がありますが、赤いボタン押された場合、リセットするだけで200,000ドル近くになります。納税者ドルあなたは、スイッチが必要でなかったときにスイッチが押された場合、それを打った人がもはや仕事を持たなくなることは間違いなく確実です。
ライアン

28
バディシステムの場合は+1。EPOを使用して消火活動もダンプするDCが存在するのは少し難しいと思います。感電死した男全体にハロトロンを放り込むことなく、EPOを行いたい状況がたくさんあります。EPOは重大な取引ですが、「DCのちょっとした取引のすべてを破壊する」ものではなく、少なくともそうすべきではありません。DCのメンバーは、大きな赤いボタンと消火システムをよく理解して、ボタンを押したときの効果を十分に評価する必要があります。たとえば、EPOは実際に火災を止めてDCを保存する場合があります。
クリス

13
私が言及したことのない重要な注意点は、何かが燃えている臭いを放つために失敗した場合、ほとんどの場合、燃えているものは臭いが検出される前に、故障した機器の外で何も燃やさずに消えることです。機器の一部が電力を持っている限りくすぶり続けることもありますが、煙が発生した場合は、機器を特定し、その電力だけをカットして、煙がすぐに消えるか、継続的に悪化するかどうかを確認する必要があります。
supercat

1
@ryan:大きな赤いボタンを押すと納税者が多額の費用がかかる場合、責任者は従業員を危険にさらさない地元の消防署との軽微な事件を解決する計画を立てることを望んでいます。
クリストフ

3
それは私が最近見たCERNについて、TVレポートを思い出させる@ryan:カメラチームと記者がシステムとの根性に本当に採取し、一瞬のカメラ選手の一人は、ほとんど彼のバックパックを持つボタンを赤い緊急をオフに突っ込みました-再起動のコストを考えるスタッフの男に近い心臓発作を与える...
ハーゲン・フォン・Eitzen

183

赤外線カメラで作業を行い、過熱がどこにあるかを特定できます。このようなデバイスを使用すると、煙が充満した部屋での火災または燃焼の原因も特定できます。


30
サーマルカメラは、今日では壮大なものの下にあり、大きなサーバールームを運営している場合、それらは価値のあるツールです。
rackandboneman

16
TICはそれほど高価ではなく、データセンターや大きなサーバールームで非常に役立ちます。過熱ケーブルや機器のような問題の場合は、だけでなく、問題、冷凍の最適化、空気の流れなどの予防や早期発見などだけではなく
ddalcero

39
このようなレーザー温度銃は、安価な代替手段です
MichaelHouse

4
@mfinni電気技師もしばしばサーマルカメラを持っています。(私がホスティング会社で働いていたとき、毎年、または主要な配線作業の後、当社の配電パネルの熱画像検査が標準でした)。
voretaq7

3
サーマルカメラには非常に大きな制限があります。[大きな火災は発見されますが、小さなものは発見されません] 3.しきい値を決定するために温度の平均化が必要になります
-monksy

138

あなたは言われたこれらのことのどれもしません。部屋全体に汲み上げられているものはすべて健康に危険であり、実際に肺を台無しにする可能性があるため、危険な環境から離れます。見つけられない部屋で何かが燃えるような刺激的な臭いがある場合は、(911 | 112 | 999 |あなたの管轄に合った緊急電話番号に電話して)火(会社|部|旅団)がそれらを消すボトル入りの空気です。

コンピューターの部品には、水銀カドミウム、ケーシング内の多くのプラスチックなど、あらゆる種類の興味深い化学物質が含まれています。私が作成したすべてのリンクは、低レベルの曝露が永続的な損傷や急速な死を引き起こす可能性を説明しています。これは生命と健康にとってすぐに危険な環境です。

...本当に、何かが燃えている場合は、煙を嗅ぐ時間を費やさないでください。あなたがそれを特定できず、すぐにそれを封じ込めるよう行動するなら、出て行ってください。


18
エアコンと消火システムが組み込まれた煙探知機を備えた「実際の」データセンターでこれが発生した場合、火災警報器がオフになり、部屋が密閉されてアルゴンまたはCO2が自動的に浸水することに注意してください。走り回ったり、機器をスニッフィングしたりすることさえ考えられませんでした。
the-wabbit

8
@ syneticon-djこれは、インストールされている検出器のタイプによって異なります。イオン化検出器は消火器を作動させたかもしれませんが、私は光学式煙検知器がある場所で(そして現在ホスト機器で)働いています-それらは作動する前に目に見える煙(または少なくとも良い曇り)を必要とします。
voretaq7

3
これにもっと賛成できたらいいなと思います。物議を醸すリスクがあるため、「専門家を雇う」消防士が唯一の前進方法です。
user619714

19
ええ、元消防士として、私はギアなしでそこにとどまりませんでした。火事が発生した場合でも、私たちは有毒ガスのために満員になるよう訓練されています。私がプロを呼ぶなら、あなたもそうすべきです!
ジェフファーランド

1
@Michael私が見たデザインは天井煙探知器に依存していませんでしたが、還気流に光電検出器がありました。トリガーが発生したのは、アルゴナイトシステムが取り外され、クローゼットの1つに煙源が置かれているテストルーチン中だけでした。期待どおりに機能しました。ありがたいことに、私は実際の火災に対処する必要はありませんでした。
ワビット

76

UPSを適切に監視している場合(通常はSNMP経由)、ユニット自体が監視システムのベルを鳴らしているはずです。そうでない場合は、ベンダーにそのことについて話してください。誤動作しているか、監視システムが適切に構成されていません。

アクティブなものが実際に燃えている場合、何らかの方法でそれについて不平を言っているか、単にネットワークから外れている必要があり、これもアラームを発生させるはずです。

断熱材で燃えている実際の電力レールのようなもので、スマートPDU上にない場合は、元の質問に戻ります。「燃えているものをどうやって見つけるのですか?」そして、適切な答えは「EPOをヒットして把握することだと思います。実稼働サーバーは、おそらく生命を危険にさらすほど重要ではないでしょう」。


13
EPOの意味?
ミッドハット

39
緊急電源オフ...部屋へのすべての電源を切る大きな赤いボタン。主にその火のために。
付与

11
+1を強調すると、1,000票になります。ボタンを押して、避難し、待って、後で物事を整理します。火と煙が存在する状態で通常どおりビジネスを行う(および何かのトラブルシューティングを試みる)ことは、エンジニアが犯す可能性がある最悪のミスの1つです。
鹿ハンター

36
@chris「EPO、Leave、Wait」については敬意を払わなければなりません。プロダクションギアがいっぱいの部屋でEPOおよび/またはクリーンエージェントのリリースをアクティブにすることは、多くの場合、キャリア制限移動と呼ばれます。何らかの初期調査を実行している一部の機器から発生するアクティブで目に見える火災または煙の跡がない場合通常は正しいことです。もちろん、調査の任意の時点で適切な赤いボタンを押しながら、部屋から飛び出す準備を絶対に整えておく必要があります。
voretaq7

13
完璧な監視システムでさえ、UPSパネルが「モジュールの交換」と言ったのと同じ瞬間までこれを捕らえなかったでしょう。次回は、誰もいない金曜日の19:30にモジュールが故障する可能性があり、監視アラートにより、本格的な緊急事態になる前に問題に対処することができます。監視をFACPに結び付けることができる場合、煙および/または熱センサーは、電源レールなどからの絶縁体の焼損について警告することさえあります。
voretaq7

43

これは、次のような状況の1つです

XKCDダイハードシステム管理者

適用されません、専門家に電話する必要があります

防護服の消防士

それ以外のものはただの愚かです。


これが明らかに最良の答えです。:)
市民

@Navinありませんあなたは消防署で人はそれをしません。
user619714

40

電子技術者としての以前の経歴を持つ人として、私は火ではない「燃えるようなにおい」の経験を持っています。これは珍しいことではありません。

私は臭いのためにデータセンターをシャットダウンしません。煙は別の問題で、何かが本当に燃えています(通常、エンドウ豆サイズのタンタルコンデンサは部屋を煙で満たすこともできます)。電源の揚げ物がどれだけ臭いを感じるかは驚くべきことです。

TICまたはIR温度計(有用なツールであり、TICよりもはるかに安価)は、コンポーネントがまったく熱を発生せず、ケース内にあるため、必ずしも表示されません。ただし、機能していないデバイスを確認するには、監視ツールを使用します。そのような臭いの場合、95%の時間はデバイス全体のパフォーマンスに影響を与える電源になります。


3
+1、吹き飛ばされた電源が一般的です。気流率の高いほとんどのデータセンターでは、煙はすぐに吹き飛ばされ、臭いの原因を突き止めることは困難です。ただし、小さな部屋では臭いがかなり悪くなり、部屋全体にすばやく広がります。
ステファンLasiewski

19

私は赤外線画像や温度計の回答が好きですが、多分助けになるのは本当の「匂い検出器」でしょう。結局のところ、あなたの注意を引いたのは匂いでした。煙、熱、IRなどはすべて代理です。

このようなもの:神栄から 。私は個人的にそれらを使用したことはなく、データセンターで使用されたこともありません。しかし、少なくとも理論的には、きちんとしたツールである必要があります。つまり、このギズモに費やすお金があれば。

http://www.sca-shinyei.com/odormeter または http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

それはあなたに臭気強度と分類を与えます。そのため、匂いに戻ることが可能になります。悪魔はもちろん詳細です。それがどれほど敏感であるか、偽の背景臭などを隠します。

純粋な温度ベースの測定に対する1つの利点は、はるかに早いポイントまたはしきい値で臭気が発生することが多いことです。または、過熱したコンポーネントがボディ/隠された配線などによって隠されている場合、見通し内のホットスポットよりも逃げる分子を検出する方が簡単です。

別の状況は、熱に関係しない臭いです。以前に冷却回路のリークがあり、クーラントの匂いも独特でした。私は、ダクトでent歯類が死んでいる今の古代のケースにさえ入りません。:)

これらのセンサーがどれほど敏感であるかに驚いた。明らかに、H2S /メルカプタンなど(通常の犯人)はサブppmレベルで検出可能です。

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.