タグ付けされた質問 「high-load」

高負荷システムの開発と保守のあらゆる側面。

2
TIME_WAITでソケットの数を減らす方法は?
Ubuntu Server 10.04.1 x86 nginxの背後にFCGI HTTPサービスを備えたマシンがあります。これは、多くの異なるクライアントに多くの小さなHTTPリクエストを処理します。(ピーク時の1秒あたり約230リクエスト、ヘッダー付きの平均応答サイズは650バイト、1日あたり数百万の異なるクライアントです。) その結果、TIME_WAITでハングする多くのソケットがあります(以下のTCP設定でグラフがキャプチャされます)。 ソケットの数を減らしたい。 これ以外に何ができますか? $ cat / proc / sys / net / ipv4 / tcp_fin_timeout 1 $ cat / proc / sys / net / ipv4 / tcp_tw_recycle 1 $ cat / proc / sys / net / ipv4 / tcp_tw_reuse 1 更新:マシン上の実際のサービスレイアウトに関する詳細: クライアント----- …

6
リクエストの頻度が下がると、応答時間が爆発するのはなぜですか?
修正:応答時間(%D)はmsではなくμsです!1 これはこのパターンの奇妙さについては何も変わりませんが、それはそれが実際にそれほど壊滅的でないことを意味します。 応答時間が要求頻度と逆相関するのはなぜですか? サーバーは、リクエストの処理に忙しくないときに、より速く応答するべきではありませんか? Apacheをより少ない負荷で「活用」する方法はありますか? このパターンは周期的です。つまり、インプレッションが1分あたり約200リクエストを下回った場合に表示されます。これは、深夜から早朝まで(自然なユーザーアクティビティにより)発生します。 要求は、1000文字未満のJSONを送信する非常に単純なPOSTです-このJSONは保存されます(テキストファイルに追加されます)-それだけです。返信は「-」です。 グラフに表示されるデータは、Apache自体で記録されました。 LogFormat "%{%Y-%m-%d+%H:%M:%S}t %k %D %I %O" performance CustomLog "/var/log/apache2/performance.log" performance

3
ntpdの「遠すぎ」はどれくらいですか?突然の重い負荷へのジャンプでそこに到達できますか?これをオーバーライドできますか?
このようなntpdの多くの入門書では、ntpdが時計のリセットを停止するという警告が常に表示されます。 「遠すぎる」とはどれくらいですか? また、サーバーが重い負荷に突然ジャンプした場合、たとえば完全なアイドル状態から100%CPUになった場合、温度が上昇するとクロックが「遠すぎ」になりますか? 時間が「遠すぎる」場合でも、少なくとも「遠すぎる」場合でも、時計をリセットするようにntpdを設定できますか?

6
適度なCPU使用率でIOがほとんどない高負荷平均
LinuxでCPUをほとんど使用しない高負荷平均の通常の説明は、IOが多すぎる(またはより適切に割り込み不可能なスリープ)ことです。 わずかなIO、控えめなコンテキストスイッチ、およびスワッピングが発生していないときに、CPU使用量がわずか(アイドル状態が55〜70%)で2平均を超える2コアVMのクラスターでサービスを実行しています。ポーリングは、プロセス状態の列psには表示さDれません。 このサービスは、ユニコーンで実行されているruby 1.9です。非常に高速なavgステートメントの実行(〜0.5ms)を提供する2つのアップストリームpostgresデータベースに接続します。このサービスは、パフォーマンステストネットワークでのストレス負荷が高い場合に実証されたものの、本番環境での経過リクエスト時間の約2倍を記録しています。強打から外れているように見える唯一の監視信号は、負荷平均(そしてもちろん平均応答時間)であり、他のすべて(cpu、memory、io、network、cswitch、intr)は名目上の一致する予測です。 システムはUbuntu 10.04.4 LTS "Lucid"です。うなめですLinux dirsvc0 2.6.32-32-server #62-Ubuntu SMP Wed Apr 20 22:07:43 UTC 2011 x86_64 GNU/Linux。ハイパーバイザーはVMWare ESX 5.1です。 更新:@ewwhiteが要求する詳細情報。ストレージは、NetAppに接続されたvmホスト上のNFSマウントにマッピングされる仮想ディスクデバイスです。すべての兆候は、重大なディスクIOが発生していないということです。このサービスは、ネットワークソケット(〜200KB / s)の読み取りと書き込みを行い、通常のアクセスとエラーロギングを(約20KB / sのレートで)行います。vmホストには、2つのトップラックスイッチに接続する1組のギガビットポートがあり、それぞれが4つのギガビットポートをすべてコアルータにボンディングします。すべて銅製です。各vmホストには、24(4x6)の物理コアと150GBのメモリがあり、通常、さまざまなサービスを実行する約30の同じサイズのvmゲストをホストします。本番環境では、これらのホストはメモリ上でオーバーコミットされることはなく、CPUでも適度にオーバーコミットされます。 高負荷を説明するアイデアを歓迎します。 以下は、今日の正午の2時間のウィンドウからsarデータを抽出したものです。 sar -q#負荷平均 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 12:05:01 PM 1 173 1.15 2.41 2.48 12:15:01 PM 0 173 0.96 1.56 1.99 …

2
rsync ionice宛先
rsyncがシステムとネットワークを枯渇させないようにするために、rsyncをionice起動して--bwlimitパラメーターを設定するときに使用します。例えば: ionice -c2 -n7 rsync -aH --bwlimit=30000 /foo root@dest.com:/ これは確かに、ソースサーバーの応答性を維持するのに役立ちます。ただし、ディスクioが100%であるため、宛先atopユーティリティは非常に遅くなります(ユーティリティで確認)。 ionice宛先サーバーでも何らかの形で使用することは可能ですか?おそらくrsync -eオプション経由ですか?可能であれば、rsyncデーモンを実行しないことを希望します。

4
ps auxがJavaプロセスで高CPU / IOにハングしている
Javaプロセスとnrpeチェックにいくつかの問題があります。32コアシステムで時々1000%CPUを使用するプロセスがいくつかあります。あなたがするまで、システムはかなり反応します ps aux または/ proc / pid#で次のようなことをしようとします [root@flume07.domain.com /proc/18679]# ls hangs.. ps auxの痕跡 stat("/etc/localtime", {st_mode=S_IFREG|0644, st_size=2819, ...}) = 0 stat("/etc/localtime", {st_mode=S_IFREG|0644, st_size=2819, ...}) = 0 stat("/dev/pts1", 0x7fffb8526f00) = -1 ENOENT (No such file or directory) stat("/dev/pts", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0 readlink("/proc/15693/fd/2", "/dev/pts/1", 127) = 10 stat("/dev/pts/1", {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 1), …

5
低いCPU /メモリ使用量でLinuxの負荷が高い
CentOS 5.5ボックスの負荷は高いが、使用されるCPUとメモリはかなり低いという非常に奇妙な状況があります。 top - 20:41:38 up 42 days, 6:14, 2 users, load average: 19.79, 21.25, 18.87 Tasks: 254 total, 1 running, 253 sleeping, 0 stopped, 0 zombie Cpu(s): 3.8%us, 0.3%sy, 0.1%ni, 95.0%id, 0.6%wa, 0.0%hi, 0.1%si, 0.0%st Mem: 4035284k total, 4008084k used, 27200k free, 38748k buffers Swap: 4208928k total, 242576k used, …
12 linux  high-load 

3
プライマリWebサーバーとしてnginxを使用することのマイナス面は?
Apacheと連携してプロキシングWebサーバーとしてnginxを使用している何百万ものWebサイトを見てきました。しかし、デフォルトのウェブサーバーとしてのみnginxを実行しているサーバーはほとんどありません。そのような構成の主な欠点は何ですか? 私はいくつかを見ることができます: .htaccessのようなディレクトリごとの構成ファイルを使用できないため、すべての構成変更はメインサーバーの構成ファイルに対して行う必要があり、サーバーの再読み込みが必要です。しかし、pecl htscannerはそれらをphp設定で補正できます nginxのmod_phpが利用できない。これは、たとえばphp-fpmで補うことができます。 他は何ですか?なぜApacheを落としてnginxや他の軽量なソリューションに移行しないのですか?おそらく、いくつかの特別な理由がありますか? 編集:この質問は主にLAMPスタックでの作業に関するものです。

3
CPU0がeth1割り込みであふれている
UbuntuベースのXen XCP内で実行されているUbuntu VMがあります。背後にあるカスタムFCGIベースのHTTPサービスをホストしますnginx。 最初のCPUコアからの負荷ab が飽和状態になり、残りの負荷が不足します。 /proc/interrupts私が見ることCPU0は、他のコアよりも大きさ以上の割り込みのために役立ちます。それらのほとんどはから来ていeth1ます。 このVMのパフォーマンスを改善するためにできることはありますか?割り込みをより均等にバランスさせる方法はありますか? 流血の詳細: $ uname -a Linux MYHOST 2.6.38-15-virtual#59-Ubuntu SMP Fri Apr 27 16:40:18 UTC 2012 i686 i686 i386 GNU / Linux $ lsb_release -a 使用可能なLSBモジュールはありません。 ディストリビューターID:Ubuntu 説明:Ubuntu 11.04 リリース:11.04 コードネーム:natty $ cat / proc / interrupts CPU0 CPU1 CPU2 CPU3 CPU4 CPU5 CPU6 CPU7 …

2
サーバー負荷が高い-[jbd2 / md1-8] 99.99%IOを使用
先週、負荷が急上昇しています。これは通常、1日に1回または2回発生します。[jbd2 / md1-8]が99.99%のIOを使用していることをiotopから特定できました。高負荷時には、サーバーへの高トラフィックはありません。 サーバーの仕様は次のとおりです。 AMD Opteron 8コア 16 GB RAM 2x2.000 GB 7.200 RPM HDDソフトウェアレイド1 Cloudlinux + Cpanel MySQLは適切に調整されています スパイクは別として、負荷は通常最大で約0.80です。 私はあちこち検索しましたが、[jbd2 / md1-8]が正確に行うことを見つけることができません。誰かがこの問題を抱えていたり、可能な解決策を知っていますか? ありがとうございました。 更新: TIME TID PRIO USER DISK READ DISK WRITE SWAPIN IO COMMAND 16:05:36 399 be/3 root 0.00 B/s 38.76 K/s 0.00 % 99.99 % [jbd2/md1-8]

4
高負荷時にTCPリセットでWebサーバーが接続を切断するのはなぜですか?
nginxで小さなVPSを設定しています。私はそれから可能な限り多くのパフォーマンスを絞りたいので、最適化と負荷テストを実験してきました。 Blitz.ioを使用して小さな静的テキストファイルをGETすることで負荷テストを行っています。同時接続数が約2000に達すると、サーバーがTCPリセットを送信しているように見えるという奇妙な問題が発生します。大量ですが、htopを使用すると、サーバーはまだCPU時間とメモリを節約できます。そのため、この問題の原因を突き止めて、さらにプッシュできるかどうかを確認したいと思います。 Ubuntu 14.04 LTS(64ビット)を2GB Linode VPSで実行しています。 このグラフを直接投稿するのに十分な評判がないので、ここにBlitz.ioグラフへのリンクがあります。 問題の原因を突き止め、理解するために私が行ったことは次のとおりです。 nginx設定値worker_rlimit_nofileは8192に設定されています しているnofileため、両方のハードとソフト制限のために64000に設定rootし、www-dataユーザー(と実行をnginxの何)で/etc/security/limits.conf 問題が発生している兆候はありません/var/log/nginx.d/error.log(通常、ファイル記述子の制限に達している場合、nginxはそのことを示すエラーメッセージを出力します) 私はufwセットアップを持っていますが、レート制限ルールはありません。ufwログは何もブロックされていないことを示しており、同じ結果でufwを無効にしてみました。 に表示エラーはありません /var/log/kern.log に表示エラーはありません /var/log/syslog 次の値をに追加し/etc/sysctl.confてロードしましたsysctl -pが、効果はありません。 net.ipv4.tcp_max_syn_backlog = 1024 net.core.somaxconn = 1024 net.core.netdev_max_backlog = 2000 何か案は? 編集:私は新しいテストを行い、非常に小さなファイル(3バイトのみ)で3000接続に増加しています。これがBlitz.ioのグラフです。 ここでも、Blitzによると、これらのエラーはすべて「TCP接続リセット」エラーです。 これがLinode帯域幅グラフです。これは5分の平均であるため、ローパスフィルターがかけられている(瞬間的な帯域幅はおそらくはるかに高い)ことに注意してください。 CPU: I / O: これhtopがテストの終わり近くです: エラーが発生し始めたときにキャプチャを開始して、別の(ただし、似たような)テストでtcpdumpを使用してトラフィックの一部をキャプチャしました。 sudo tcpdump -nSi eth0 -w /tmp/loadtest.pcap -s0 port 80 誰かがそれを見てみたい場合のファイルは次のとおりです(〜20MB):https ://drive.google.com/file/d/0B1NXWZBKQN6ETmg2SEFOZUsxV28/view?usp=sharing Wiresharkの帯域幅グラフは次のとおりです。 …
10 nginx  tcp  high-load  reset 

3
複数のロードバランサーを使用してトラフィックをアプリケーションサーバーにリダイレクトすることはできますか?
ロードバランシングは初めてですが、複数のロードバランサーを使用してトラフィックをアプリケーションサーバーにリダイレクトできるかどうか疑問に思っています。どうすればいいのか分かりません。ドメイン名は、特定のサーバーのIPアドレス(この場合は1つのロードバランサーのIP)と1対1で一致する必要はありませんか?各ロードバランシングサーバーのIPが異なる場合、両方のロードバランサー(または10ロードバランサーまたは50または100)がリクエストをどのように受信できますか?

3
Linux Ubuntuで平均奇妙さを読み込む
過去数日間、インフラストラクチャで起こっている奇妙さを理解しようと努めてきましたが、それを理解することができなかったので、皆さんにヒントを与えます。 私はGraphiteで、約2時間ごとに致命的な規則性で発生するload_avgのスパイクに気づいてきました-正確に2時間ではありませんが、非常に規則的です。グラファイトから撮ったスクリーンショットを添付しています 私はこれを調査することに行き詰まりました-これの定期性は、それが何らかのcronジョブまたはそのようなものであると考えるようになりましたが、これらのサーバーで実行されているcronjobはありません-これらは実際にはRackspaceクラウドで実行されているVMです。私が探しているのは、これらの問題を引き起こしている可能性のある種の兆候と、これをさらに調査する方法です。 サーバーはかなりアイドル状態です。これはステージング環境であるため、トラフィックがほとんど入らないか、サーバーに負荷がかかりません。これらはすべて4つの仮想コアVMです。私が確かに知っていることは、約10秒ごとに一連のグラファイトサンプルを取得していることですが、それが負荷の原因である場合、異なるサーバーで2時間ごとに発生するのではなく、常に高いことが予想されます。 これを調査する方法を助けていただければ幸いです! 以下は、sarからのapp01のデータです。これは、上の画像の最初の青いスパイクです。データから結論を出すことはできませんでした。また、バイト書き込みスパイクが30分ごと(2時間ごとではない)に発生していることがわかるのは、30分ごとに実行するchef-clientが原因です。すでにデータを収集してみますが、実際にそれらから結論を出すことはできませんでした。 負荷 09:55:01 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked 10:05:01 PM 0 125 1.28 1.26 0.86 0 10:15:01 PM 0 125 0.71 1.08 0.98 0 10:25:01 PM 0 125 4.10 3.59 2.23 0 10:35:01 PM 0 125 0.43 0.94 1.46 3 10:45:01 PM 0 …

4
nagiosサーバーの高負荷— nagiosサーバーのサービスチェックの数が多すぎますか?
2.0 GHz Intelプロセッサ、RAID10アレイ、400 MBのRAMを搭載したUbuntuを実行するnagiosサーバーがあります。8つのホストで合計42のサービスを監視します。ほとんどのサービスは、check_httpプラグインを使用して5分でもチェックされ、場合によっては1分ごとにチェックされます。最近、nagiosサーバーの負荷は4を超え、多くの場合6に達しています。サーバーはサボテンも実行し、6台のホストの毎分統計を収集します。 このようなハードウェアでいくつのサービスを処理できるのでしょうか。ハードウェアの限界を押し上げているため、負荷は非常に高いですか、またはこのハードウェアは42のサービスチェックとサボテンを処理できる必要がありますか?ハードウェアが不十分な場合、RAM、コア、または高速コアを追加する必要がありますか?他にはどのようなハードウェア/サービスチェックが実行されていますか?

2
HAプロキシ-ラウンドロビンと最小接続
いつ使用すべきか、いつ使用すべきかについての提案はありroundrobinますleastconnか? 私はroundrobin現在使用しており、バックエンドサーバーの負荷が均等に分散されていないことを確認しました。もちろん他の問題もあるかもしれませんがleastconn、試してみたいと思いますが、ミッションクリティカルなサーバーなので、変更する前に他の経験を参考にしたいと思います。 共有するアイデアはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.