Cisco Catalystクラスタハートビートスイッチの問題-入力エラーの増加

7

問題：2つのクラスター内のサーバーが相互にハートビート接続を失い続けるため、データベースが停止します。停止は短時間ですが中断を伴います。

セットアップ：

それぞれ3つのサーバーからなる2つのクラスターがあります。
各サーバーには、1つのレイヤー2スイッチ（Catalyst 2950）に接続された1つのNICがあり、スイッチポートは100Mb /全二重でハードコードされています。
DBAは、各ハートビートNICが100Mb /全二重にハードコードされていることを確認します。
VLAN 100と同じサブネット（10.40.60.0/24）に2つのクラスターが構成されています。
管理IPアドレスは別のサブネット（10.40.1.0/24）にあり、そのスイッチポートはVLAN 1にあります。

症状：

スイッチポートでエラー数が増え続けているのがわかります。1つのクラスター内の3つのサーバーの場合、入力エラー（すべてのCRC）は、入力パケット全体の約3％です。出力エラーはありません。もう1つのクラスターは、合計入力パケットの約6％です。
スイッチポートでの送受信負荷は軽く、txloadおよびrxloadで20/255未満です。
スイッチログには、スイッチポートのバウンスが表示されます。

5月16日11:15:31 PDT：％LINEPROTO-5-UPDOWN：インターフェイスFastEthernet0 / 13のラインプロトコル、状態をダウンに変更
5月16日11:15:32 PDT：％LINK-3-UPDOWN：インターフェイスFastEthernet0 / 13、変更状態を
5月16日11:15:34 にダウンPDT：％LINK-3-UPDOWN：インターフェイスFastEthernet0 / 13、状態をアップに変更
5月16日11:15:35 PDT：％LINEPROTO-5-UPDOWN：インターフェイスFastEthernet0 /のラインプロトコル13、状態をアップに変更

実行されたトラブルシューティング手順：

サーバーのハートビートNICとスイッチの間の古いCat5ケーブルを新しいCat6に交換しました-影響はありません。
新しいサブネット（10.40.61.0/24）に新しいVLAN 200を作成し、DBAに1つのクラスターでハートビートNICのIPを再IPしてもらった-影響なし。
スイッチポートとNICで速度とデュプレックスのすべての組み合わせを試しましたが、どちらも100Mb /全二重に戻りました。
DBAは両方のクラスターのBroadcomドライバーを最新のものにアップグレードしました-6％クラスターのエラー率を4％に下げましたが、他のクラスターはまだ3％です。

私が提案する次のステップ：

サーバーにはIntel NICがあります。クラスタのハートビートをIntel NICに移動してみてください。Broadcomの問題でしょうか？
スイッチをギグ対応スイッチに変更します。Catalayst 3560xが利用可能ですが、それを使用するとプロジェクトが遅れます。たぶん、スイッチポートのギグとNICの方がいいでしょう

なに？

エラーを軽減するために既存の2950スイッチで構成できるものはありますか？追加のトラブルシューティング手順を実行する必要がありますか？

cisco cisco-catalyst

— VMEricAnderson
ソース

9

CRCエラーはケーブル配線の問題であることがよくあります。次に、ハードウェアを交換する前に確認することを示します。

サーバーはスイッチに直接接続されていますか、それとも何らかのインフラストラクチャケーブルを介して接続していますか？その場合は、インフラストラクチャケーブルを再認定してください。
実際のケーブルテスター（単純な導通テスターではない）があれば、ケーブルをテストします。
ケーブルが手作りの場合、工場で製造されたケーブルと交換します。多くの場合、手作りのケーブルでこの種の問題に遭遇します。
ケーブルが走っている場所の近くにEMの発生源がないかどうかを確認します。電源または他のEMの電源から離れていることを確認するために一時的にさえできる場合は、ケーブルのパスを変更します。

それを超えて、あなたがすでに示したように、私はNICから始めます。あなたは悪い走りからいくつかを得たのでしょうか？

— YLearn
ソース

3

ご提案どおりIntel NICに移行してテストすることをお勧めします。トラフィックのごく一部が入力エラーであるという同様の問題に遭遇しました。サーバー（私の場合はカメラ）とスイッチの間にダムハブを配置して、問題のトラブルシューティングを行いました。スイッチで入力エラーが検出されなくなった場合、問題はサーバーNICです。

私はあなたが提案した同じステップの多くを試しました。私の場合、それは悪い製造工程であることがわかりました。この問題を修正した唯一のことは、NIC（カメラ）の交換でした。

— ヘンクル
ソース