シスコのスイッチポートは不良ですか？

私は過去数日間、内部ネットワーク上の少数のエンドユーザーのパケット損失とネットワーク安定性の問題を追跡してきました...これらの問題は先週表面化しましたが、その場所は6週間前に落雷しました。

77メートルの走路の向こう側にある4台のCisco 2960と複数のPCと電話のスタック間で5〜10％のパケット損失が発生しました。PCは、トランクリンクを介して電話とインラインで実行されました（スイッチポート構成のペーストビン）。クライアントサーバーアプリケーションとMicrosoft Exchange接続で、通話の切断と中断が発生しました。

私は通常のトラブルシューティング手順をリモートで試しました。ユーザーと本番のアクティビティが中断している間に、ローカルの技術者に次のことを依頼しました。

壁のジャックとデバイス間のケーブルを交換します。
パッチパネルとスイッチポート間のパッチケーブルを交換してください。
2960スタック内の別のスイッチポートを試してください。
エンドユーザーのデバイスを、正常な機器（新しい電話、別のPC）に交換します。
スイッチポートインターフェイスカウンタをクリアし、増加するエラーを注意深く監視します。（のペーストビン出力sh int）
デバイスログとObservium RRDグラフを熟読します。スイッチ側からのリンクアップ/ダウンの問題はありません。
エンドユーザー側の電源タップを交換してください。
テストケーブルは、test cable-diagnostics tdr int Gi4/0/9（クリーン）* を使用してCisco 2960から配線します。
Tripp-Liteケーブルテスターでケーブルをテストします。（掃除）
スイッチスタックメンバーで診断を実行します。（掃除）

最終的に、安定したソリューションを見つけるために、スイッチポートを3回変更しました。唯一の論理的な結論は、いくつかのCisco 2960スイッチポートが不良または不安定であるということです。個々のポートがこのようにして死ぬのを見ることには慣れていません。

これらのデバイスが不良かどうかを判断するために、他に何をテストまたはチェックできますか？

これを検証するためのベストプラクティスアプローチは何ですか？

隣接するポートのバンクではなく、単一のポートに問題があるのは一般的ですか？

ところで- show cable-diagnostics tdr int Gi4/0/14とてもクールです...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal

— ewwhite
ソース

「show interface gi4 / 0/9」を追加してもらえますか？tdr出力はgi4 / 0/14からです...問題が発生しているポートの数は？

— Mike Pennington

@MikePennington 48のうち4つのインターフェイスで問題が発生していました。カウンターがクリアされました。しかし、インクリメントされたカウンタのみでした：Total output drops: 1461

— ewwhite

合計数の出力パケットから1461が落ちる？問題のある4つのポートすべてが出力ドロップを示していますか？

— Mike Pennington

@MikePennington インターフェイスの問題のある2つのポートのペーストビン出力。

— ewwhite 2012

技術的な回答ではありませんが、TAC契約は有効ですか？そうならば、それを必要とする：P

— ItsGC

回答:

多くの場合、ポートのバンクはASICを共有しますが、ポートごとに独自のPHYが必要です。PHYが損傷している場合は、近隣に問題がなくても問題が発生する可能性があります。

とは言っても、出力の低下は物理的な問題の奇妙な症状です。不可能ではありませんが、典型的ではありません。半二重リンクにもかかわらず、出力ドロップは通常、物理的な問題よりもバッファの枯渇と関係があります。

回線の反対側でパケットキャプチャを設定すると、詳細情報を取得できます。リンクの片側または両側でいくつかの物理層エラー（CRC不良、ラント/ジャイアントなど）が発生すると、PHYが不良になると予想されます。

全体として、それはあなたが十分に排除したように聞こえ、それがリターンを減少させるポイントを過ぎているかもしれない。契約がある場合は、RMAをお勧めします。

— rnxrx
ソース

これは複数の（2）スイッチの複数のポートで発生していますが、ユーザーのごく一部に限られているため、4つのスイッチすべてを交換する必要があるのはこの場合ですか？交換が...かなりのダウンタイム、ケーブルの再接続などが必要になりますので、私は、コアの問題を知らなくても、交換用のハード時間ロビー活動を持っている

— ewwhite

稲妻は非常に奇妙な動物であり、それからの損傷はずっと後で、予測できない方法で現れます。もちろん、ダウンタイムは最悪ですが、交換用スイッチをループさせ、パッチを移動してから古いパッチを引き抜くことで、多少は改善できます。もっと簡単な答えがあったらいいのですが、問題をいくつかのポートに分離した場合は、他に行うことはほとんどありません。

— rnxrx 2012

最近では、PHYはほとんどの場合ASICに統合されています。それは明白に安いです。磁気は、ASICに統合できない唯一の部分であり、損傷する可能性がありますが、それはPHYではありません。また、クアッドセット磁気を使用することはかなり一般的であるため、問題が4つのポートにある場合、この理論に役立ちます。

— Chris S

そうではない-ほとんどのCiscoスイッチ（問題のスイッチを含む）のアーキテクチャを通過する場合、1つまたは2つのファイバーまたは銅線GEまたは100TXのいくつかのグループに同じASICがよく使用されます。スイッチオンチップアーキテクチャでは、より多くの機能がASICに移行されますが、その場合でも、プラグ可能な光メディアまたは何らかの銅メディアによって物理層が処理されます。同じASICコンプレックスが多くの異なる速度と電力要件を処理できることが多いので、この機能を同じスピンに統合することはあまり意味がありませんか？

— rnxrx 2012

あまりにも多くのポートが使用できなくなるほど劣化した後、最後にすべてのスイッチを交換しました。最後に、SmartNetの良い使い方です！

— ewwhite 2013年

はい、単一のポートは不良である可能性がありますが、私が覚えているように、モジュール全体を交換する必要があります。（警告：シスコの重要な作業を行ってから長い時間が経っています...）

役立つかどうかはわかりませんが、EtsyのOpsエンジニアの1人であるLaurie DennessによるFITBをチェックしてください。

— gWaldo
ソース