Cisco Catalystクラスタハートビートスイッチの問題-入力エラーの増加
問題:2つのクラスター内のサーバーが相互にハートビート接続を失い続けるため、データベースが停止します。停止は短時間ですが中断を伴います。 セットアップ: それぞれ3つのサーバーからなる2つのクラスターがあります。 各サーバーには、1つのレイヤー2スイッチ(Catalyst 2950)に接続された1つのNICがあり、スイッチポートは100Mb /全二重でハードコードされています。 DBAは、各ハートビートNICが100Mb /全二重にハードコードされていることを確認します。 VLAN 100と同じサブネット(10.40.60.0/24)に2つのクラスターが構成されています。 管理IPアドレスは別のサブネット(10.40.1.0/24)にあり、そのスイッチポートはVLAN 1にあります。 症状: スイッチポートでエラー数が増え続けているのがわかります。1つのクラスター内の3つのサーバーの場合、入力エラー(すべてのCRC)は、入力パケット全体の約3%です。出力エラーはありません。もう1つのクラスターは、合計入力パケットの約6%です。 スイッチポートでの送受信負荷は軽く、txloadおよびrxloadで20/255未満です。 スイッチログには、スイッチポートのバウンスが表示されます。 5月16日11:15:31 PDT:%LINEPROTO-5-UPDOWN:インターフェイスFastEthernet0 / 13のラインプロトコル、状態をダウンに変更 5月16日11:15:32 PDT:%LINK-3-UPDOWN:インターフェイスFastEthernet0 / 13、変更状態を 5月16日11:15:34 にダウンPDT:%LINK-3-UPDOWN:インターフェイスFastEthernet0 / 13、状態をアップに変更 5月16日11:15:35 PDT:%LINEPROTO-5-UPDOWN:インターフェイスFastEthernet0 /のラインプロトコル13、状態をアップに変更 実行されたトラブルシューティング手順: サーバーのハートビートNICとスイッチの間の古いCat5ケーブルを新しいCat6に交換しました-影響はありません。 新しいサブネット(10.40.61.0/24)に新しいVLAN 200を作成し、DBAに1つのクラスターでハートビートNICのIPを再IPしてもらった-影響なし。 スイッチポートとNICで速度とデュプレックスのすべての組み合わせを試しましたが、どちらも100Mb /全二重に戻りました。 DBAは両方のクラスターのBroadcomドライバーを最新のものにアップグレードしました-6%クラスターのエラー率を4%に下げましたが、他のクラスターはまだ3%です。 私が提案する次のステップ: サーバーにはIntel NICがあります。クラスタのハートビートをIntel NICに移動してみてください。Broadcomの問題でしょうか? スイッチをギグ対応スイッチに変更します。Catalayst 3560xが利用可能ですが、それを使用するとプロジェクトが遅れます。たぶん、スイッチポートのギグとNICの方がいいでしょう なに? エラーを軽減するために既存の2950スイッチで構成できるものはありますか?追加のトラブルシューティング手順を実行する必要がありますか?