落雷後の機器の損傷の評価-さらに計画する必要がありますか?
クライアントのサイトの1つが先週(13日金曜日に偶然にも!)直撃を受けました。 私はサイトから離れていましたが、現場で誰かと仕事をしていると、奇妙なダメージのパターンを発見しました。両方のインターネットリンクがダウンしており、ほとんどのサーバーにアクセスできませんでした。損傷の多くはMDFで発生しましたが、1つのファイバー接続IDFもスイッチスタックメンバーのポートの90%を失いました。他の場所でケーブル配線を再配布して再プログラムするのに十分な予備のスイッチポートが利用できましたが、影響を受けるデバイスを追いかけている間にダウンタイムがありました。 これは新しい建物/倉庫施設であり、多くの計画がサーバールームの設計に組み込まれました。メインサーバールームは、発電機に支えられたAPC SmartUPS RT 8000VAダブルコンバージョンオンラインUPSで運営されています。接続されたすべての機器に適切な配電が行われました。オフサイトのデータ複製とシステムのバックアップが実施されていました。 全体として、損傷(私が知っている)は次のとおりでした。 Cisco 4507R-Eシャーシスイッチの障害のある48ポートラインカード。 4メンバースタックで障害が発生したCisco 2960スイッチ。(おっと...ゆるいスタッキングケーブル) Cisco 2960スイッチのいくつかの不安定なポート。 HP ProLiant DL360 G7マザーボードおよび電源。 Elfiq WANリンクバランサー。 1つのMultitech FAXモデム。 WiMax /固定無線インターネットアンテナとパワーインジェクター。 多数のPoE接続デバイス(VoIP電話、Cisco Aironetアクセスポイント、IPセキュリティカメラ) 問題のほとんどは、Cisco 4507R-Eでスイッチブレード全体が失われることに関連していました。これには、VMware NFSネットワークの一部と、サイトのファイアウォールへのアップリンクが含まれていました。VMWareホストに障害が発生しましたが、ストレージネットワーク接続が復元されると、HAがVMの面倒を見ました。ファンキーな電源状態をクリアするために、多くのデバイスの再起動/電源の再投入を余儀なくされました。回復までの時間は短かったのですが、どのような教訓を学ばなければならないのか興味があります... 将来的に機器を保護するには、どのような追加の保護を実装する必要がありますか? 保証と交換にはどうすればよいですか?シスコとHPは、契約中の品目を交換しています。高価なElfiq WANリンクバランサーのWebサイトには、基本的に「ネットワークサージプロテクターを使用してください」という宣伝文句があります。(彼らはこのタイプの失敗を期待しているようです) 私は過去に雷雨の被害に遭うほど長くITに携わってきましたが、影響は非常に限られていました。たとえば、安価なPCのネットワークインターフェイスやミニスイッチの破壊。 不安定な機器を検出するためにできることは他にありますか、それとも奇妙な振る舞いが浮上するのを待つだけですか? これはすべて不運だったのでしょうか、それとも災害復旧で実際に考慮されるべきものでしたか? 十分な$$$があれば、あらゆる種類の冗長性を環境に組み込むことができますが、ここでは予防的/思慮深い設計とリソースの効果的な使用の合理的なバランスは何ですか?