落雷後の機器の損傷の評価-さらに計画する必要がありますか?


55

クライアントのサイトの1つが先週(13日金曜日に偶然にも)直撃を受けました。

私はサイトから離れていましたが、現場で誰かと仕事をしていると、奇妙なダメージのパターンを発見しました。両方のインターネットリンクがダウンしており、ほとんどのサーバーにアクセスできませんでした。損傷の多くはMDFで発生しましたが、1つのファイバー接続IDFもスイッチスタックメンバーのポートの90%を失いました。他の場所でケーブル配線を再配布して再プログラムするのに十分な予備のスイッチポートが利用できましたが、影響を受けるデバイスを追いかけている間にダウンタイムがありました。

これは新しい建物/倉庫施設であり、多くの計画がサーバールームの設計に組み込まれました。メインサーバールームは、発電機に支えられたAPC SmartUPS RT 8000VAダブルコンバージョンオンラインUPSで運営されています。接続されたすべての機器に適切な配電が行われました。オフサイトのデータ複製とシステムのバックアップが実施されていました。

全体として、損傷(私が知っている)は次のとおりでした。

  • Cisco 4507R-Eシャーシスイッチの障害のある48ポートラインカード。
  • 4メンバースタックで障害が発生したCisco 2960スイッチ。(おっと...ゆるいスタッキングケーブル)
  • Cisco 2960スイッチのいくつかの不安定なポート。
  • HP ProLiant DL360 G7マザーボードおよび電源。
  • Elfiq WANリンクバランサー。
  • 1つのMultitech FAXモデム。
  • WiMax /固定無線インターネットアンテナとパワーインジェクター。
  • 多数のPoE接続デバイス(VoIP電話、Cisco Aironetアクセスポイント、IPセキュリティカメラ)

問題のほとんどは、Cisco 4507R-Eでスイッチブレード全体が失われることに関連していました。これには、VMware NFSネットワークの一部と、サイトのファイアウォールへのアップリンクが含まれていました。VMWareホストに障害が発生しましたが、ストレージネットワーク接続が復元されると、HAがVMの面倒を見ました。ファンキーな電源状態をクリアするために、多くのデバイスの再起動/電源の再投入を余儀なくされました。回復までの時間は短かったのですが、どのような教訓を学ばなければならないのか興味があります...

  • 将来的に機器を保護するには、どのような追加の保護を実装する必要がありますか?
  • 保証と交換にはどうすればよいですか?シスコとHPは、契約中の品目を交換しています。高価なElfiq WANリンクバランサーのWebサイトには、基本的に「ネットワークサージプロテクターを使用してください」という宣伝文句があります。(彼らはこのタイプの失敗を期待しているようです)
  • 私は過去に雷雨の被害に遭うほど長くITに携わってきましたが、影響は非常に限られていました。たとえば、安価なPCのネットワークインターフェイスやミニスイッチの破壊。
  • 不安定な機器を検出するためにできることは他にありますか、それとも奇妙な振る舞いが浮上するのを待つだけですか?
  • これはすべて不運だったのでしょうか、それとも災害復旧で実際に考慮されるべきものでしたか?

十分な$$$があれば、あらゆる種類の冗長性を環境に組み込むことができますが、ここでは予防的/思慮深い設計とリソースの効果的な使用の合理的なバランスは何ですか?


3
以下にいくつかの優れた技術的回答がありますが、私の経験では、良い保険に勝るものはありません。文字通り、保険証券。確かに、それは問題を回避する助けにはならず、顧客があなたに悲鳴を上げるのを止めることはありませんが、ベンダーが触れない故障した機器の交換には役立ちます。
マークヘンダーソン

@MarkHenderson Insuranceがやって来ました...しかし、それは6週間が経過しており、いくつかの小さな問題が現在生じています。
ewwhite

回答:


23

数年前、私が働いていた場所のデータセンターの1つは、非常に大きな空中の1フロアでした。この大きくて薄い金属製のアイテムは、この地域で最も高いもので、18か月ごとに雷に見舞われました。データセンター自体は(シリアル途切れボードを交換する必要があった1980年頃に建てられたので、私は周りの最も近代的なもの、それを呼び出すことはありませんが、彼らは雷ダメージを扱う長年の経験を持っていたたびに途切れであれば裁判で、ボードは、10年以内に新しい部品が製造されていないシステムにあります)。

古い手によって育てられた一つのことは、すべてのその偽の電流があらゆるものの周りに道を見つけることができ、それが橋を渡ると、共通の地面に広がることができるということです。雷は例外的なケースであり、通常の安全基準ではアークを防ぐのに十分ではなく、エネルギーがある限り行きます。そして、それはたくさんあります。十分なエネルギーがある場合、吊り天井グリッド(吊りワイヤの1つが、セメントの建物桁に接続されたループから吊り下げられている可能性があります)から2ポストラックの上部まで、そこから中へと弧を描くことができますネットワーキンググッズ。

ハッカーのように、できることはそれだけです。すべての電源にはスプリアス電圧をクランプするブレーカーが付いていますが、低電圧ネットワーク機器はほとんど動作せず、非常に高エネルギーの電流が流れる共通経路を表します。


不安定な可能性のあるキットを検出することは、理論上は行う方法を知っていますが、実際にはそうではありません。おそらくあなたの最善の策は、疑わしいギアをエリアに置き、部屋の温度を意図的に動作範囲の上限まで上げて、何が起こるかを見ることです。いくつかのテストを実行し、そこからロードします。数日間そのままにしておきます。既存の電気的損傷に対する追加の熱応力は、時限爆弾を取り除く可能性があります。

一部のデバイスの寿命は間違いなく短くなりましたが、どのデバイスが難しいかを見つけました。電源装置内の電源調整回路がコンポーネントに影響を与え、サーバーに汚れた電力を供給している可能性があります。これは、電源装置をテストするために設計された特殊なデバイスを使用することによってのみ検出できます。


落雷は、屋根に巨大な避雷針のある施設にDCがあること以外、DRで検討したことではありません。一般的に、ストライキは、「神の行為」の下でシャッフルされて、動き回ることが非常にまれです。

しかし...あなたは今1つを持っています。施設が少なくとも1回は適切な状態にあったことを示しています。施設に適切な条件が与えられている傾向について評価を取得し、それに応じて計画を立てるときです。あなたが今雷のDRの影響だけを考えているなら、私はそれが適切だと思います。


昨日、現場に行って評価しました。乱雑。シャーシスイッチを修理し、一部のサーバーの損傷を確認しました。屋根のWiMax / Fixed-Wirelessアンテナが入り口であった可能性はありますか?そのパスのすべてが影響を受けました:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite

1
それは聞こえる...かなり可能性があります。
mfinni

1
@ewwhiteそれは非常にありそうです。その古いDCがヒットしたときのダメージは非常に似ていました。
sysadmin1138

sysadmin1138の投稿にいくつかの知恵を追加したいです(まだコメントすることはできませんが、これを答えにしたくありません)。電源コードのアースピンは、デバイスではなく人間の安全のためです。 。小さなオフィスで; 重要な機械を地面(木箱、ゴム製マット)および接地されていないコネクタ/アダプターUPS->壁から離しておく。OSHAはそれを嫌っていると確信していますが、コンピューターはそれを愛しています。また、サージが何かを殺す可能性があるため、ガードの電源を切ったり、再び電源を入れたりするときに役立ちます。非常に大きなLibert UPS / Inverterが
吹き飛ばさ

7

この質問は最近編集され、トップページのトップに戻って以来、私はこの質問について考えていました。

DC屋根での大規模な落雷に対して非常に魅力的な設備に対処しなければならないsysadmin1138のような人々にとって、大きなストライキのための特定の緊急事態計画が理にかなっていると、私は自由に規定します。しかし、私たちのほとんどにとって、これは一回限りの状況であり、私が他の人にもっと一般的に適した答えには何らかの価値があるかもしれないと思いました。

あらゆる種類のフィルムプロットの脅威を想像することは可能です。間違いなく発生する可能性のあるシナリオは、そうすることでビジネスオペレーションを確実に停止しますが、発生する可能性が高くなると考える理由はありません。あなたはある種のことを知っています。飛行機のストライキ/稲妻/ 近くのオイルデポが爆発する /その他のもっともらしいが背景リスクのシナリオ。

これらのそれぞれには、実施可能な特定の緩和計画がありますが、上記の規定を法として、ビジネス上の意味をなさないことをお勧めします。シュナイアーは上記の競争で指摘しようとしているように、恐ろしい出来事を想像できるからといって、特定の計画を立てる価値のある、あるいは望ましくない脅威にならないからです。何良いビジネスセンスを作る汎用、十分に文書化、テストした事業継続計画です。

さまざまな期間(24時間、96時間、1週間、1か月など)でサイトが完全に失われた場合のビジネスコストを自問し、発生する可能性を定量化する必要があります。それは、ビジネスのすべてのレベルによって取り入れられた、正直なビジネスコスト分析でなければなりません。私は、一般に受け入れられているダウンタイムの数値が550万ポンド/時間であるサイトで働いてきました(そして、それは20年前、500万クイッドが多額のお金でした)。単純に数学の問題になったので、その数字が一般的に一致していると、非常に多くの決定が非常に簡単になりました。

予算は、予想される損失にその損失の年間チャンスを乗じたものです。予算に対するその脅威を軽減するためにできることを確認してください。

場合によっては、コールド機器を備えた24時間365日稼働できるフルスタンバイデータセンターまで実行されます。小規模なスタンバイデータセンターを意味する場合があります。そのため、電話会社の数を大幅に減らし、中断を警告するプレースホルダーWebサイトで顧客との対話を継続できます。メインサイトで冗長にルーティングされた2番目のインターネット接続を意味し、必要になるまで冷たくなります。上記のマークヘンダーソンが指摘しているように、保険(ただし、ビジネス上の損失と実際の復旧費用をカバーする保険)を意味する場合があります。災害発生時に予想されるすべての費用をカバーする1枚の紙にBC予算を費やすことができる場合、その紙を購入することは理にかなっているかもしれませんが、保険会社の失敗を考慮することを忘れないでくださいあなたのビジネスリスク計画に。特定のコア機器の保守契約を、非常に高価な修理に要する4時間にアップグレードすることを意味する場合があります。あなただけがあなたのビジネスにとって意味があることを知ることができます。

そして、この計画を作成したら、実際にテストする必要があります(保険ベースの計画を除きます)。私は、完全な小規模運用コールドサイトがあるサイトで働いていました。メインサイトから車で45分でカットオーバーする準備ができています。コアネットワークをシャットダウンする問題が発生した場合、コールドサイトに切り替わるのではなく、それをライブで修正しようとしました。コアを固定してカットバックします。カットオーバー失敗の背後にある理由の1つは、カットオーバーとカットバックにどれくらいの時間がかかるかについて、私たちが実際に考えていないことでした。したがって、カットの決定を下す前にカットオーバーなしで実行できる時間を実際に誰も知らなかったので、当然のことながら、カットオーバーを決定することにtic黙がありました。14時間後にオンラインに戻った後、頭が転がりました。停止自体ではなく、そのような停止中に使用されなかった1日以上の停止を緩和するために施設に多くのお金が費やされていたためです。

最後のポイントとして、ビジネスプランの外部委託されたコンポーネントの動作が保証されていないことに注意してください。上級管理者は、「サーバーをクラウドに配置すれば、常にそこにいるだけで、システム管理者を解雇できる」と考えてそこに座っているかもしれません。そうではありません。 クラウドは他のものと同様に失敗する可能性があります; 重要なコンポーネントをプロバイダーに外注した場合、これらのコンポーネントの障害の可能性を推定する機能を削除するだけです。SLAはすべて非常に優れていますが、実質的な不履行ペナルティに裏付けられていない限り、意味がありません。利用できませんか?信頼性を確保するために、SLAには停止のビジネスにかかるコストに近いペナルティが必要です。はい、それはアウトソーシングのコストを大幅に増加させます。はい、それは完全に予想されることです。


2
追加する必要があります...このサイトは、元の投稿から3回雷に打たれました。その理由は、施設のいくつかのエリアでの不十分/存在しない電気的接地に由来しています。請負業者を訴え、交換品の大部分を保険が処理しました。
ewwhite

2
申し訳ありませんが、ewwhite、私の開始規定もより明確に適用されるはずです。サイトで任意のリスクは上記の背景である、それは、少なくとも、特にそのリスクに向け軽減を考慮することが私には意味があります。私の答えは、あなたの質問を読んで、「まあ、稲妻の計画もありません。おそらくするべきです考え始めるかもしれない他の皆のためです。
MadHatter

6

それは常にあなたがどれだけ使いたいかにかかっています。私はこれについて長々と話すほど十分な知識を持っていませんが、落雷を起こし、多重冗長スパイクアレスターと思われるものを吹き飛ばした(そして正しく設計された)大きな製薬会社のデータセンターにいました、しかし間違って実装されたので、何かが通り抜けた。)

UPSで防止できた最大スパイクは何でしたか?評価が必要です。どうやら、ストライキはそれを超えるのに十分なほど直接的なものであったか、UPSフィードの周囲に何か悪いものがありました。だから、多分あなたは修復対ダウンタイムのX尤度のコストを比較し、別のストライキがどのように可能性を決定、あなたの消費電力設計を見直し、そして多分電気技師は、すべてのは、適切に接地することを確認するために、施設に良い調査を与えている-と、いくつかの迅速な読み取りショー安全性/コードの接地は、落雷による損傷を防止するための接地ほど強力ではありません。


UPSは問題ないようです。そこ建物の複数の部分に問題があったが、主UPS技術仕様の状態を「フルタイムのマルチポール・ノイズフィルタ:0.3%のIEEEサージ通過:クランプ応答時間ゼロ:1449 ULを満たしている」
ewwhite

いいですね。それから、もしあなたの主電源がしっかりしていれば、おそらく他の手段を介して侵入します。
mfinni
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.