問題:2つのクラスター内のサーバーが相互にハートビート接続を失い続けるため、データベースが停止します。停止は短時間ですが中断を伴います。
セットアップ:
- それぞれ3つのサーバーからなる2つのクラスターがあります。
- 各サーバーには、1つのレイヤー2スイッチ(Catalyst 2950)に接続された1つのNICがあり、スイッチポートは100Mb /全二重でハードコードされています。
- DBAは、各ハートビートNICが100Mb /全二重にハードコードされていることを確認します。
- VLAN 100と同じサブネット(10.40.60.0/24)に2つのクラスターが構成されています。
- 管理IPアドレスは別のサブネット(10.40.1.0/24)にあり、そのスイッチポートはVLAN 1にあります。
症状:
- スイッチポートでエラー数が増え続けているのがわかります。1つのクラスター内の3つのサーバーの場合、入力エラー(すべてのCRC)は、入力パケット全体の約3%です。出力エラーはありません。もう1つのクラスターは、合計入力パケットの約6%です。
- スイッチポートでの送受信負荷は軽く、txloadおよびrxloadで20/255未満です。
- スイッチログには、スイッチポートのバウンスが表示されます。
5月16日11:15:31 PDT:%LINEPROTO-5-UPDOWN:インターフェイスFastEthernet0 / 13のラインプロトコル、状態をダウンに変更
5月16日11:15:32 PDT:%LINK-3-UPDOWN:インターフェイスFastEthernet0 / 13、変更状態を
5月16日11:15:34 にダウンPDT:%LINK-3-UPDOWN:インターフェイスFastEthernet0 / 13、状態をアップに変更
5月16日11:15:35 PDT:%LINEPROTO-5-UPDOWN:インターフェイスFastEthernet0 /のラインプロトコル13、状態をアップに変更
- サーバーのハートビートNICとスイッチの間の古いCat5ケーブルを新しいCat6に交換しました-影響はありません。
- 新しいサブネット(10.40.61.0/24)に新しいVLAN 200を作成し、DBAに1つのクラスターでハートビートNICのIPを再IPしてもらった-影響なし。
- スイッチポートとNICで速度とデュプレックスのすべての組み合わせを試しましたが、どちらも100Mb /全二重に戻りました。
- DBAは両方のクラスターのBroadcomドライバーを最新のものにアップグレードしました-6%クラスターのエラー率を4%に下げましたが、他のクラスターはまだ3%です。
私が提案する次のステップ:
- サーバーにはIntel NICがあります。クラスタのハートビートをIntel NICに移動してみてください。Broadcomの問題でしょうか?
- スイッチをギグ対応スイッチに変更します。Catalayst 3560xが利用可能ですが、それを使用するとプロジェクトが遅れます。たぶん、スイッチポートのギグとNICの方がいいでしょう
なに?
エラーを軽減するために既存の2950スイッチで構成できるものはありますか?追加のトラブルシューティング手順を実行する必要がありますか?