ネットワークスループットの問題（ARP関連）

9

私が働いている小さな大学には、非常に奇妙なネットワークの問題があります。ここでアドバイスやアイデアを探しています。夏は大丈夫でしたが、秋学期に強制的にキャンパスに戻った数日後にトラブルが起こりました。

症状

主な症状は、インターネットアクセスは機能することですが、非常に遅くなります...タイムアウトに達することがよくあります。例として、Speedtest.netの典型的な結果は.4Mbpsのダウンロードを返しますが、アップロード速度は3〜8 Mbpsです。症状が少ない場合は、ファイルサーバーとの間でデータを転送するパフォーマンスが大幅に制限されている場合や、場合によってはコンピューターにログインできない（ドメインコントローラーに到達できない）場合があります。この問題は複数のVLANにまたがり、私たちが運営するほぼすべてのVLANのデバイスに影響を与えています。

この問題は、ネットワーク上のすべてのマシンには影響しません。影響を受けていないマシンでは、通常、speedtest.netから少なくとも 11Mbpsのダウンロードが見られますが、そのときのキャンパストラフィックのパターンによっては、はるかに多くなる可能性があります。

大きな問題には1つのバリエーションがあります。ユーザーがほぼすべてのマシンにログインできなかったVLANが1つあります。ITスタッフはローカルの管理者アカウント（または場合によってはキャッシュされた資格情報）を使用してログインし、そこからリリース/更新またはゲートウェイにpingを実行すると、しばらくの間マシンが動作します。この問題を複雑にしているのは、このVLANがディープフリーズと呼ばれるソフトウェアを使用して再起動後にハードドライブを完全にリセットするコンピューターラボをカバーしていることです。低レベルの情報を数週間永続的に変更していないマシン上の古いデータが原因で、同じ問題が別の形で現れる可能性があります。ただし、新しいVLANを作成し、ラボを新しいVLANホールセールに移動することで、これを解決することができました。

扇動

最終的に、影響を受けるすべてのマシンに最近のdhcpリースがあることに気付きました。dhcpリースが更新される時期を監視することで、マシンが「遅くなる」時期を予測できます。テストVLANのリース時間を非常に短く設定してみましたが、マシンが遅くなる時期を予測する機能がなくなりました。静的IPを備えたマシンは、ほとんど常に正常に機能します。アドレスを手動で解放または更新しても、マシンが遅くなることはありません。実際、一部のケースでは、このプロセスは修正されていますその状態のマシン。しかし、ほとんどの場合、それは役に立ちません。また、ラップトップなどのモバイルマシンが新しいVLANに接続すると、速度が低下する可能性があることにも気付きました。キャンパス内のワイヤレスは「ゾーン」に分割され、各ゾーンは小さな建物のセットにマッピングされます。新しい建物に移動すると、ゾーンに配置され、新しい住所を取得する可能性があります。スリープモードから再開するマシンも低速になる可能性が非常に高くなります。

緩和

影響を受けるマシンでarpキャッシュをクリアすると、常にではないが、正常に機能する場合があります。すでに述べたように、ローカルマシンのIPアドレスを解放または更新すると、そのマシンを修正できますが、保証はされません。デフォルトゲートウェイにpingを実行すると、速度の遅いマシンでも役立つ場合があります。

この問題を軽減するのに最も役立つと思われるのは、コアレイヤー3スイッチのarpキャッシュをクリアすることです。このスイッチは、すべてのVLANのデフォルトゲートウェイとしてdhcpシステムに使用され、VLAN間ルーティングを処理します。モデルは3Com 4900SXです。この問題を緩和するために、スイッチのキャッシュタイムアウトを可能な限り短い時間に設定していますが、効果はありません。また、スイッチに自動的に接続してキャッシュをリセットするために、数分ごとに実行されるスクリプトをまとめました。残念ながら、これは常に機能するとは限らず、一部のマシンがしばらくの間低速状態になる可能性さえあります（ただし、これらは数分後に自動的に修正されるようです）。現在、コアスイッチがARPキャッシュをクリアするように強制するために10分ごとに実行されるスケジュールされたジョブがありますが、これは完全または望ましいことにはほど遠いものです。

再生

これで、自由にスローステートに移行できるテストマシンが完成しました。これは、各VLANにポートが設定されたスイッチに接続されています。異なるVLANに接続することでマシンの速度が遅くなり、1つまたは2つの新しい接続の後は遅くなります。

このセクションでは、これが前の条件の開始時に以前に発生したことにも注目する価値がありますが、過去には、問題は数日後にそれ自体で解消されました。これは、多くの診断作業を行う機会が得られる前に解決しました。そのため、今度は「長期」にこれほど長くドラッグすることを許可したのです。これは一時的な状況であると予想されていました。

その他の要因

昨年、完全に約6台のスイッチが完全に故障したことは言及に値します。これらは主に2003/2004時代の3Coms（ほとんどが4200）で、ほぼ同時に投入されました。それらはまだ保証の対象であるはずです。HPを購入すると、サービスを受けるのが多少難しくなります。主に故障した電源装置ですが、いくつかのケースでは、故障したメインボードのあるスイッチからの電源装置を使用して、故障した電源装置のあるスイッチを元に戻しました。現在、4台のスイッチのうち3台を除くすべてにUPSデバイスがありますが、2年半前に始めたときはそうではありませんでした。厳しい予算の制約（2年前にエドの財政難に直面している機関リストに載っていた）のために、代わりにNetgearやTrendNetのようなものを探す必要がありました。

また、この夏のネットワークの大きな変化は、単一のキャンパス間無線SSIDから、前述のゾーン方式への移行であったことにも言及する価値があります。私が言ったように、これは問題の原因ではないと思います。これは以前に見たことがあります。ただし、これが問題を悪化させている可能性があり、特定が非常に困難である理由の多くである可能性があります。

診断

問題のタイミングと持続的な性質を考えると、問題の原因はARPキャッシュポイズニングを実行する感染した（または悪意のある）学生のマシンであることが最初は明らかでした。ただし、ソースを分離するための繰り返しの試行は失敗しました。これらの試みには、多数のWiresharkパケットトレース、さらには建物全体を短時間オフラインにすることさえ含まれます。喫煙銃の不良ARPエントリを見つけることさえできませんでした。私の現在の最良の推測は、過負荷または障害のあるコアスイッチですが、これをテストする方法がわかりません。また、盲目的に交換するコストは高額です。

繰り返しますが、アイデアはありがたいです。

更新：
コアスイッチが交換されました。4日後、すべてが順調に進んでいます...しかし、問題が解決するまで、2週間経過するまで待ちます。

networking performance arp

— ジョエル・コール
ソース

影響を受けるマシンでパケット損失が発生していますか？その場合、パケット損失はどこで発生しますか？mtrここで役に立ちます。

— EEAA 2012

3

これは、スイッチの1つに障害があり、arp-tablesが破損し、破損したエントリが他のスイッチに伝播しているように見えます。したがって、L3コアでテーブルがクリアされたときの部分的な救済。さらにトラブルシューティングを行う前に、すべてのスイッチをリセットすることを強くお勧めします。少し運が良ければ、これで問題は完全に解決します。スイッチに本当に障害がある場合は、再起動後にスイッチが電源投入診断に失敗することが期待されます。PSパワーグリッドのわずかな変動がこの影響を与える可能性があります。スイッチがUPSにない場合は、根本的な原因である可能性があります。

— Tonny 2012

@ErikAにはパケット損失があります。より良いトレースを取得できるかどうかを確認しますが、パケット損失はキャンパスのすべての場所から発生します。つまり、共通の接続ポイントは、コアスイッチとサーバーに接続されたスイッチのみです。

— Joel Coel 2012

1

@Tonnyトラブルシューティングの一環として、すべて（ほぼすべて）のスイッチを少なくとも2回リセットしました。これで、約1日1日半、苦情が減った（解消されなかった）ようです。約40台のスイッチユニットがあり、3台または4台を除くすべてのUPSデバイスがあります。ここでの主なことは、すべてのスイッチがほぼ同時に設置されたこと、そしてこの1年間で6つの完全な障害が発生したことです。そのため、多くの信頼性があります。

— Joel Coel 2012

1

3comの経験はありませんが、特定のポートから学習するMACアドレスの数を制限する方法があるかもしれません。スイッチがハブになってMacフラッディングが発生した場合に備えて、学生用マシンのすべてのアクセスポートでこれを行うことができます。

— Bad Dos

2

ジョエル、

トランクが設定されていて、問題を自由に複製できます。ラップトップにWiresharkをインストールし、アップリンクポートをミラーリング/スパンします。パケットレートが10,000を超えるか、ポートの使用率が最大速度に近い場合は、問題があります。

ハードウェア/スパニングツリーに問題がある可能性があります。通常、ユーザーは自分のマシンの両方のNICを「より多くのスループットを得るために」接続していることがわかりました。

通常、スパニングツリーの問題では、ベンダーからのポートごとにループ検出またはブロードキャスト制限をオンにすることができます。これにより、ループが見つかったすべてのポートが強制終了されます。「bpdu保護」をオンにして、bpduを受信したポートを無効にし、syslog / snmpトラップレシーバーにエラーをスローすることもできます。

ジョー

— user1940189
ソース

1

以前にこれと同様の問題が発生したことがあり、LAN内にループがあり、サブネット全体の混乱と飽和を引き起こしています（おそらく、スイッチが追加のポートに独自のMACを認識しているため、ブロードキャストトラフィックが原因です）。

編集：また、これは教育機関（以前の2つのsysadminジョブの2つ）では一般的です。小さなダーリンがパッチケーブル/ソケットをいじるのが好きだから...

— ジョージ
ソース

私たちはこれを正確にチェックするために多くの時間を費やしましたが、最終的にそれを除外しました。

— Joel Coel 2013年

0

ブロードキャストストームの原因となる不良ハードウェアを入手したときに聞こえます。Wiresharkを使用してブロードキャストを監視し、問題を引き起こすホストを見つけます...

— 遺伝子
ソース

一部のマシンが正常に動作し、他のマシンが動作しない場合、これが起こる可能性はほとんどありません。ブロードキャストストームにより、VLAN全体がすぐに破綻します。

— Paul Gear

0

Joeのアイデアは良いものですが、ブロードキャストストームが問題を引き起こす可能性は低いと考えられるため（ARPキャッシュポイズニングまたは同様の問題で、正しい方向に進んでいると思います。IPアドレスの競合である可能性もあります）、それはおそらく問題を解決しません。

スイッチがサポートしている場合、動的ARPおよびDHCPインスペクションを使用する関連手法。これをオンにすると、スイッチはDHCPトランザクションを監視し、DHCPデータベースの既知のエントリに一致するARPエントリ、または手動で指定したもののみを許可します。

スイッチにこの機能がない場合、それを追跡するための別のオプションは、Linuxユーティリティarpwatchです。これは、すべてのARP要求を追跡し、IP-MACマッピングの変更に気付いたときに通知します。

— ポールギア
ソース