ネットワーク(の半分)をどのように切断しましたか?


11

このイベントが再発しないように、イベント後のアドバイスを探しています。

VSS冗長性用に設定された2つのCisco 4500xスイッチのネットワークコアがあります。これらの中から、iSCSIデバイス、vSphere用のHPブレードセンター、ユーザーアクセススイッチへの集約リンク、サーバールームの銅製デバイス用の1対の4948eスイッチがあります。4948esでは、2つのISPリンク用の2960スイッチのペアと、ファイアウォールとしてのASAのペアがあります。4948eに接続する多くのデバイスが単一のNICしか持っていないことを除いて、かなりまともな冗長性があります。

現在のユーザーアクセススイッチ(古いExtremes)をMerakiに置き換える準備をしています。現在のArubaに代わるMeraki APも実装しています。ワイヤレスプロジェクトの一環として、AP管理とゲストワイヤレスのために、いくつかの新しいVLANとサブネットを作成します。

4500xには2つの定義済みVLAN(20と40)があり、どこでも使用されていません-サブネットが空であること、それらを使用するポートがないことなどを確認しました。4500xに入って「no interface vlan 20」を発行し、それをサブネットで再構築しました私は欲しかった。次に、それをMerakiに接続されている2つの10Gbポートに追加しました

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

20と40のVLANがシャットダウンさno shutdownれていることに気付いたので、それらに発行しました。その時点でMerakisにアクセスできなくなったので、そのリンクのポートチャネルインターフェイスにVLANを追加していないことに気付きました。

この時点で環境の半分に到達できなくなった

私たちのインターネットリンクは非常に不安定になりました。当社のAvaya VoIP電話は、ダイヤルインまたはダイヤルアウトできませんでした。銅線で接続されたいくつかのiSCSIデバイスが使用できなくなりました。ユーザーが直接操作しても停止することはありませんが、バックアップとメールアーカイブが影響を受けました。私はサーバールームに行き、何らかの方法でループを作成した場合に備えて、Merakisを4500xから切断しました(両方の10Gbファイバーポートを取り外しました)。変更はありません。私はその時点でしばらくこれをじっと見つめていることを認めます。

Orionをプルアップしたところ、外部スイッチの1つ(Cat2960)とASAペアの1つもダウンしていることに気付きました。何らかのLAN接続の一部の損失があったようですが、ASAペアも相互にクロスオーバーで接続されており、それらのアップリンクはダウンしなかったため、内部デバイスが到達できる範囲にフェイルオーバーしませんでした。「ダウン」ASAをシャットダウンすると、インターネットが再び到達可能になりました。

私はTACに電話をかけ、ダウンした各ホストのすべてのポート構成をいじくり回し続けている技術者と数時間取り組んだ後、4500xで彼を見せていたところ、4948eスイッチの1つにログインして、pingできないことを示しました。直接接続されて稼働している-Windowsベースの銅線iSCSIデバイスの1つ、ブレードセンターのiLOインターフェイスなど

ログを調べても何も見つかりませんでしたが、この時点で「ログにそれが表示されない場合でもスパニングツリーバグのように見える」と述べたため、4948eとそのすべてを直接再起動しました。 -接続されたホストがすぐに戻ってきました-Avayaキャビネットを含め、私たちの電話は再び機能し始めました。4500xファイバー接続デバイスにはすべて冗長性があったため、デッドパスに問題がありました。彼は、電源サイクルを緩やかにしたかったのですが、これには10ギガビットiSCSIがすべて含まれているため、vSphere環境(本質的にすべてのサーバー)に悪い週があったでしょう。私は彼に、残りの問題を処理する優雅な冗長スイッチオーバーを実行するように話しました。

TL; DR:私はコアにかなり無害な変更を加え、恐ろしい問題を引き起こしました。これを引き起こすと予測されるはずの構成ミスをしましたか?たとえば、最初にVLANをシャットダウンせずにポートチャネルに追加し、次にポートに追加した場合、これは回避されましたか?シスコの技術者はそれを言っていませんでした。彼は、1年以上の稼働時間と古いIOSバージョンがあれば、このような状況は驚くべきことではないと述べました。

4500x:Cisco IOSソフトウェア、IOS-XEソフトウェア、Catalyst 4500 L3スイッチソフトウェア(cat4500e-UNIVERSALK9-M)、バージョン03.04.05.SGリリースソフトウェア(fc1)ROM:15.0(1r)SG10

4948e:Cisco IOSソフトウェア、Catalyst 4500 L3スイッチソフトウェア(cat4500e-IPBASEK9-M)、バージョン15.0(2)SG10、リリースソフトウェア(fc1)ROM:12.2(44r)SG11

回答:


5

ブロードキャストストームを作成したようです。停止するには、スイッチの電源を切るしかありません。これを数回経験した後、シスコが推奨するいくつかのベストプラクティスを採用しました。

  • VLANは、単一のアクセススイッチにのみ拡張する必要があります。アクセススイッチには好きなだけVLANを設定できますが、どのアクセススイッチのVLANも、他のアクセススイッチにトランク接続するのではなく、ディストリビューションスイッチにトランク接続する必要があります。switchport trunk allowed vlan コマンドを使用して、トランク上の他のすべてのVLANを手動で無効にすることにより、これを強制します。
  • ディストリビューションスイッチには、アクセスインターフェースはなく、ディストリビューショントランクインターフェイスのみが必要です。
  • VTPを使用しないでください(すべてのスイッチをtransparentモードに設定します)。
  • アクセスインターフェイスが 有効になっている必要がportfastありbpduguardます。すべてのアクセスインターフェイスに対してこれらをグローバルに有効にでき、トランクインターフェイスは影響を受けません。誤ってスイッチをアクセスインターフェイスに接続すると、インターフェイスが開始されerr-diable、STPループが防止されます。
  • アクセススイッチを別のアクセススイッチに接続しないでください。アクセススイッチはディストリビューションスイッチにのみ接続し、トランクインターフェイスにのみ接続してください。

これらのベストプラクティスは、ほとんどすべてのSTP問題を防ぎ、単一のアクセススイッチで発生する問題を分離します。


2
ああそう。いつか、十分な資金があり、「奇妙な」(つまりL2)アプリケーションがなく、従順なユーザーコミュニティがあり、推奨されるすべての良識の慣行に従う十分な管理サポートがあるネットワークで作業したいと思っています。いつか。
Ron Trunk

1. VLANとアクセススイッチに関する最初の提案ですが、よくわかりません。
mfinni 2016

2.「ディストリビューション」はおそらく4500xであり、ほとんどがトランクですが、iSCSIファイバー接続がいくつかあります。
mfinni 2016

3. VTPを避けます-考慮されますが、今日は何も「透過的」に設定されているとは思われません
mfinni

4. portfastとbdpuguard-この提案もレビューします
mfinni '28

3

上記のRon Maupinの優れたアドバイスに加えて、私がプロセスで犯した潜在的な大きな間違いについてシスコのフォーラムに投稿をいくつか見つけました。VLANを最初に物理ポートインターフェイスに追加しました。それらがメンバーであったポートチャネルインターフェイスではありません。後者が適切な方法であり、私が問題を引き起こした可能性があります。


2
メンバーインターフェースがダウンしている場合は、以前と同じように実行できます。一般に、メンバーインターフェイスをダウンさせ、ポートチャネルを含むすべての構成を行い、それがすべての状態になったら、起動します。
Ron Maupin
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.