私が働いている小さな大学には、非常に奇妙なネットワークの問題があります。ここでアドバイスやアイデアを探しています。夏は大丈夫でしたが、秋学期に強制的にキャンパスに戻った数日後にトラブルが起こりました。
症状
主な症状は、インターネットアクセスは機能することですが、非常に遅くなります...タイムアウトに達することがよくあります。例として、Speedtest.netの典型的な結果は.4Mbpsのダウンロードを返しますが、アップロード速度は3〜8 Mbpsです。症状が少ない場合は、ファイルサーバーとの間でデータを転送するパフォーマンスが大幅に制限されている場合や、場合によってはコンピューターにログインできない(ドメインコントローラーに到達できない)場合があります。この問題は複数のVLANにまたがり、私たちが運営するほぼすべてのVLANのデバイスに影響を与えています。
この問題は、ネットワーク上のすべてのマシンには影響しません。影響を受けていないマシンでは、通常、speedtest.netから少なくとも 11Mbpsのダウンロードが見られますが、そのときのキャンパストラフィックのパターンによっては、はるかに多くなる可能性があります。
大きな問題には1つのバリエーションがあります。ユーザーがほぼすべてのマシンにログインできなかったVLANが1つあります。ITスタッフはローカルの管理者アカウント(または場合によってはキャッシュされた資格情報)を使用してログインし、そこからリリース/更新またはゲートウェイにpingを実行すると、しばらくの間マシンが動作します。この問題を複雑にしているのは、このVLANがディープフリーズと呼ばれるソフトウェアを使用して再起動後にハードドライブを完全にリセットするコンピューターラボをカバーしていることです。低レベルの情報を数週間永続的に変更していないマシン上の古いデータが原因で、同じ問題が別の形で現れる可能性があります。ただし、新しいVLANを作成し、ラボを新しいVLANホールセールに移動することで、これを解決することができました。
扇動
最終的に、影響を受けるすべてのマシンに最近のdhcpリースがあることに気付きました。dhcpリースが更新される時期を監視することで、マシンが「遅くなる」時期を予測できます。テストVLANのリース時間を非常に短く設定してみましたが、マシンが遅くなる時期を予測する機能がなくなりました。静的IPを備えたマシンは、ほとんど常に正常に機能します。アドレスを手動で解放または更新しても、マシンが遅くなることはありません。実際、一部のケースでは、このプロセスは修正されていますその状態のマシン。しかし、ほとんどの場合、それは役に立ちません。また、ラップトップなどのモバイルマシンが新しいVLANに接続すると、速度が低下する可能性があることにも気付きました。キャンパス内のワイヤレスは「ゾーン」に分割され、各ゾーンは小さな建物のセットにマッピングされます。新しい建物に移動すると、ゾーンに配置され、新しい住所を取得する可能性があります。スリープモードから再開するマシンも低速になる可能性が非常に高くなります。
緩和
影響を受けるマシンでarpキャッシュをクリアすると、常にではないが、正常に機能する場合があります。すでに述べたように、ローカルマシンのIPアドレスを解放または更新すると、そのマシンを修正できますが、保証はされません。デフォルトゲートウェイにpingを実行すると、速度の遅いマシンでも役立つ場合があります。
この問題を軽減するのに最も役立つと思われるのは、コアレイヤー3スイッチのarpキャッシュをクリアすることです。このスイッチは、すべてのVLANのデフォルトゲートウェイとしてdhcpシステムに使用され、VLAN間ルーティングを処理します。モデルは3Com 4900SXです。この問題を緩和するために、スイッチのキャッシュタイムアウトを可能な限り短い時間に設定していますが、効果はありません。また、スイッチに自動的に接続してキャッシュをリセットするために、数分ごとに実行されるスクリプトをまとめました。残念ながら、これは常に機能するとは限らず、一部のマシンがしばらくの間低速状態になる可能性さえあります(ただし、これらは数分後に自動的に修正されるようです)。現在、コアスイッチがARPキャッシュをクリアするように強制するために10分ごとに実行されるスケジュールされたジョブがありますが、これは完全または望ましいことにはほど遠いものです。
再生
これで、自由にスローステートに移行できるテストマシンが完成しました。これは、各VLANにポートが設定されたスイッチに接続されています。異なるVLANに接続することでマシンの速度が遅くなり、1つまたは2つの新しい接続の後は遅くなります。
このセクションでは、これが前の条件の開始時に以前に発生したことにも注目する価値がありますが、過去には、問題は数日後にそれ自体で解消されました。これは、多くの診断作業を行う機会が得られる前に解決しました。そのため、今度は「長期」にこれほど長くドラッグすることを許可したのです。これは一時的な状況であると予想されていました。
その他の要因
昨年、完全に約6台のスイッチが完全に故障したことは言及に値します。これらは主に2003/2004時代の3Coms(ほとんどが4200)で、ほぼ同時に投入されました。それらはまだ保証の対象であるはずです。HPを購入すると、サービスを受けるのが多少難しくなります。主に故障した電源装置ですが、いくつかのケースでは、故障したメインボードのあるスイッチからの電源装置を使用して、故障した電源装置のあるスイッチを元に戻しました。現在、4台のスイッチのうち3台を除くすべてにUPSデバイスがありますが、2年半前に始めたときはそうではありませんでした。厳しい予算の制約(2年前にエドの財政難に直面している機関リストに載っていた)のために、代わりにNetgearやTrendNetのようなものを探す必要がありました。
また、この夏のネットワークの大きな変化は、単一のキャンパス間無線SSIDから、前述のゾーン方式への移行であったことにも言及する価値があります。私が言ったように、これは問題の原因ではないと思います。これは以前に見たことがあります。ただし、これが問題を悪化させている可能性があり、特定が非常に困難である理由の多くである可能性があります。
診断
問題のタイミングと持続的な性質を考えると、問題の原因はARPキャッシュポイズニングを実行する感染した(または悪意のある)学生のマシンであることが最初は明らかでした。ただし、ソースを分離するための繰り返しの試行は失敗しました。これらの試みには、多数のWiresharkパケットトレース、さらには建物全体を短時間オフラインにすることさえ含まれます。喫煙銃の不良ARPエントリを見つけることさえできませんでした。私の現在の最良の推測は、過負荷または障害のあるコアスイッチですが、これをテストする方法がわかりません。また、盲目的に交換するコストは高額です。
繰り返しますが、アイデアはありがたいです。
更新:
コアスイッチが交換されました。4日後、すべてが順調に進んでいます...しかし、問題が解決するまで、2週間経過するまで待ちます。
mtr
ここで役に立ちます。