サーバー管理者 server-crashes

5

*注意：混乱したカーネルが原因でサーバーにまだ問題があり、再起動できない場合-システムにインストールされているgnu dateで提案される最も簡単な解決策はdate -s nowです。これにより、カーネルの内部「time_was_set」変数がリセットされ、Javaおよびその他のユーザースペースツールでCPUが占有するfutexループが修正されます。私は自分のシステムでこのコマンドを実行し、スズで言うことを実行していることを確認しました* 死後 Anticlimax：死んだのはクラスターへのVPN（openvpn）リンクだけだったので、再確立するのに刺激的な数秒がありました。それ以外はすべて問題なく、うるう秒が過ぎた後、ntpの起動は正常に完了しました。私はその日のすべての経験をhttp://blog.fastmail.fm/2012/07/03/a-story-of-leaping-seconds/に書きました。 http://my.opera.com/marcomarongiu/blog/2012/06/01/an-humble-attempt-to-work-around-the-leap-secondの Marcoのブログを見ると、彼はntpd -xを使用して1時間のスキップを回避するために、24時間にわたって時間の変更を段階的に行います。これは、独自のntpインフラストラクチャを実行するための代替の塗り付け方法です。ちょうど今日、2012年6月30日（土）-GMTの開始後すぐに開始。さまざまなチームによって管理されているように、さまざまなデータセンターに少数のサーバーがあります-pingに応答せず、画面が空白になります。それらはすべてDebian Squeezeを実行しています-ストックカーネルからカスタム3.2.21ビルドまでのすべてを備えています。ほとんどがDell M610ブレードですが、私はDell R510を失い、他の部門も他のベンダーのマシンを失いました。また、クラッシュし、無関係であると思われた古いIBM x3550もありましたが、今は疑問に思っています。私が言ったからスクリーンダンプを取得した1つのクラッシュ： [3161000.864001] BUG: spinlock lockup on CPU#1, ntpd/3358 [3161000.864001] lock: ffff88083fc0d740, .magic: dead4ead, .owner: imapd/24737, .owner_cpu: 0 残念なことに、ブレードにはすべてkdumpが構成されているはずですが、非常に激しく死んだためkdumpがトリガーされず、コンソールのブランキングがオンになっていました。コンソールブランキングを無効にしたため、指が交差したため、次のクラッシュ後に詳細情報を入手できます。それが共通のスレッドなのか、それとも「私たちだけ」なのかを知りたいだけです。異なる時期に購入され、異なる管理者（私はFastMail.FMの管理者）が実行する異なるデータセンターの異なるユニットであるということは本当に奇妙です...そして今では異なるベンダーのハードウェアですらあります。クラッシュしたマシンのほとんどは数週間/月稼働しており、3.1または3.2シリーズのカーネルを実行していました。直近のクラッシュは、3.2.21を実行して約6時間しか稼働していなかったマシンでした。回避策わかりました、ここで私がそれを回避した方法を示します。無効なntp： /etc/init.d/ntp stop http://linux.brong.fastmail.fm/2012-06-30/fixtime.plを作成しました（コードはMarcoから盗まれました。コメントのブログ投稿を参照してください） fixtime.plうるう秒セットがあることを確認するために引数なしで実行しました fixtime.plうるう秒を削除する引数を指定して実行しました注：に依存しadjtimexます。squeeze adjtimexバイナリのコピーをhttp://linux.brong.fastmail.fm/2012-06-30/adjtimexに置きました。squeeze64ビットシステムに依存せずに実行されます。のディレクトリと同じディレクトリfixtime.plに配置すると、システムのディレクトリが存在しない場合に使用されます。明らかに、64ビットsqueezeがない場合は、自分で見つけてください。 ntp明日また始めます。匿名ユーザーが提案したように-実行する代わりにadjtimex、自分で時間を設定するだけで、おそらくうるう秒カウンターもクリアされます。

365 linux debian ntp server-crashes leapsecond

2

syslogにASCII NUL文字があるとサーバーがクラッシュする（^ @ ^ @ ^ @…）

OVH（フランスのサービスプロバイダー）がホストする専用サーバーがあります。OS：Ubuntu 12.04 x64 数ヶ月前、私のサーバーの1つがクラッシュしました。唯一の奇妙なことは、syslogの「ASCII NUL」文字でした： ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ @ ^ …

21 linux ubuntu syslog server-crashes

2

Windows Server 2012 R2での重要な構造の破損

Windows Server 2012 R2仮想マシンがあります。はい、すべての更新で。追加のソフトウェアには、Microsoft SQL Server 2014（以前のVMでは2012でした）が含まれます。Webホスティング会社には、xenpci.sys（EJBPV XenPCI Driver（Checked Build）、James Harper）がすべてのVMおよびPleskでのデフォルトインストールの一部として含まれています。定期的に、OSはハング、ブルースクリーン、または再起動します。常にではありませんが、ミニダンプを取得します。通常の問題は次のとおりです。エラー：CRITICAL_STRUCTURE_CORRUPTION 原因ではなく、明らかに特定のトップレベルファイルは異なります。win32k.sys、ntoskrnl.exe、xenpci.sys（Xenドライバーは数回しか表示されませんが）、およびndis.sysです。 OSR（Open System Resources）アナライザーはあまり役に立ちませんでした。WhoCrashedアナライザーはもう少し役立ちました。それは述べました： 17個のクラッシュダンプが見つかり、分析されました。このレポートには10個のみが含まれています。サードパーティのドライバーが、コンピューターのシステムクラッシュの原因であることが確認されています。会社のWebサイトでこれらのドライバーの更新プログラムを確認することを強くお勧めします。以下のリンクをクリックして、これらのドライバーの更新をGoogleで検索してください。 xenpci.sys (EJBPV XenPCI Driver (Checked Build), James Harper) 私は、Webホスティング会社にこのトピックの調査を依頼しましたが、手ぶらで対応できます。Xenドライバーに問題があるとは思いません。WhoCrashedがそれを取り上げたのは、それが数回最後のドライバーであり、サードパーティだからだと推測します。WhoCrashedは書いていないので、これ以上コメントするのは難しい。私の質問は、問題のトラブルシューティング方法です。 Webホスティング会社は、過去数年にわたってすでに2つの新しい仮想マシンを提供しようとしていました。問題は移行します。SQL Serverをインストールしましたが、OSとPleskがデフォルトで付属しています。さて、メールサーバーソフトウェアもあります。ウェブホスティング会社はまた、彼らが同様に不満を言う他のクライアントを持っていないことを私に言った。ディスクテストを複数回実行しました。ディスクの状態は良好です。私はレジストリの状態をチェックしませんでしたが、問題はインストール全体に渡り、かなり定期的に発生するため、それを無視する必要があります。現在、3番目または4番目のVMにいます。繰り返しになりますが、WhoCrashedが言及しているため、Xenについて言及していますが、それが原因であると確信しておらず、他のクライアントは実際にそれを使用しています。システムには十分なメモリとストレージがあるため、問題はありません。更新：ここに私のホスティングホスティング会社からのいくつかの答えがあります。通常のシナリオでは、ドライバーをアンインストールすると、VMのパフォーマンスが低下します。ハードウェアノードとの同期の問題がある可能性があります。チェックビルドまたはリリースビルドを使用していますか？開発者のサイトからのものと同じ、テスト署名されたビルドを使用しています。どうすればわかりますか？デバイスマネージャーのXen PCIプロパティダイアログは、どちらの方法でも言いませんでした。デバイスマネージャーのエントリが唯一の場所ですか？[プログラムと機能]をチェックしても、何も表示されませんでした。 [プログラムの追加と削除]でバージョンを確認できます。添付されているスナップショットを参照してください。彼らのサイトで最新バージョンがどこにあるのか、どこで見つけることができますか？開発者のサイトが機能しない -http ://www.meadowcourt.org/downloads/ここから最新の署名済みリリースをダウンロードできます-http : //wiki.univention.de/index.php?title=Installing-signed- GPLPV-運転手どのXen、0.11.0.373が（Xen 4.6？3.0？xy？）に属しているかを確認するにはどうすればよいですか？ Xen …

15 windows-server-2012-r2 xen server-crashes

4

kdump / crashを使用してOOMの問題を調査する方法は？

問題複数の「メモリ不足」メッセージの後にサーバーがクラッシュし、原因を特定しようとしています。ユーザーランドにある場合-どのプロセス。カーネル内にある場合-どのカーネルモジュール。詳細クラッシュユーティリティを使用して、サーバーでOOMをトリガーした原因を調査する方法を見つけようとしています。新しいサーバーペアのインストールの一環として、14TB DRBDデバイスの初期化を開始しました。その頃、DRBDシンカーレート構成で遊んでいるときに、結合されたネットワークインターフェイスの一部を上下させたときに、サーバーの1つがクラッシュしました。30秒間で39のOut of memory: Kill process ####メッセージが生成されました。その後、次のようにクラッシュしました： Kernel panic - not syncing: Out of memory and no killable processes... システムクラッシュによりkdumpがトリガーされました。これでvmcore.flat、問題を調査するのに簡単に使用できる素敵なファイルができましたが、すべてのメモリがどこに行ったのかを見つけるのに苦労しています。私が知っている唯一のリソースはDedoimedoのサイトで、これには素晴らしい説明があり、Kernel Crash Bookがあります。これらは回答で提案されている唯一のリソースでもあるためcrash、調査する唯一の方法であると思います。インシデントで事後分析を行う別の方法があれば、喜んで受け入れます。それはcrash私が知っている唯一のユーティリティです。私が今持っているのはvmcore.flatファイルだけです、そして、私が知る必要があるのは、どのコンポーネントがそのメモリをすべて使い果たしたかです。カーネルモジュールの問題、より具体的にはボンディングモジュール（インターフェイスをダウンさせるとトリガーされる）、DRBDモジュール（CentOS 6.3のツリーからビルドされたバージョン8.3.15）、または10Gイーサネットモジュール（mlnx_en停止したインターフェイスであるツリー、またはbnx2xアクティブのままであったインターフェイスであるツリーから構築されます）。私が知る必要があるのは、疑念を検証する方法があるかどうかだけです。これまでのところ、クラッシュユーティリティを使用して次の情報を抽出することができました。使用メモリ量を確認しました $ crash /usr/lib/debug/lib/modules/2.6.32-279.5.2.el6.x86_64/vmlinux vmcore.flat .... crash> kmem -i PAGES TOTAL PERCENTAGE TOTAL MEM 16482587 62.9 GB ---- FREE 54610 …

12 centos6 troubleshooting server-crashes memory-leak oom

3

システムクラッシュの原因を特定する方法

私のサーバーは約1週間に1回クラッシュし、何が原因であるかについての手掛かりを残していません。チェック/var/log/messagesしたところ、ある時点で記録が停止し、ハードリブートを実行するとコンピューターの投稿情報から開始します。原因を特定できる、確認できるものやインストールできるソフトウェアはありますか？ CentOS 7を実行しています。これが私の唯一のエラー/問題です/var/log/dmesg：https：//paste.netcoding.net/cosisiloji.log [ 3.606936] md: Waiting for all devices to be available before autodetect [ 3.606984] md: If you don't use raid, use raid=noautodetect [ 3.607085] md: Autodetecting RAID arrays. [ 3.608309] md: Scanned 6 and added 6 devices. [ 3.608362] md: autorun ... [ 3.608412] md: …

10 linux centos server-crashes

2

Linux kdumpが/ var / crashに書き込まないのはなぜですか？

再び起こった！定期的にクラッシュするサーバーが4台あり、システムログやシリアルコンソールに情報が出力されません。さらに、Linux kdumpサービスはコアダンプをデフォルトの場所に書き込みません/var/crash。理由を教えてください。ルートファイルシステムがLVMボリュームであるかどうかは重要ですか？これが私が試したものです。私のシステムは、最新のカーネルを備えたScientific Linux 6.5です。 [root@host1 ~]# uname -r 2.6.32-431.11.2.el6.x86_64 [root@host1 ~]# cat /etc/issue Scientific Linux release 6.5 (Carbon) このファイル/etc/kdump.confは、デフォルト設定を含む標準的なファイルです。ほとんどの行はコメント化されており、pathおよびのアクティブな行は2つだけcore_collectorです。 #net my.server.com:/export/tmp #net user@my.server.com path /var/crash core_collector makedumpfile -c --message-level 1 -d 31 #core_collector scp kdumpサービスが実行中であることを確認します。これkdumpにより、を再構築する必要はありませんinitrd。 [root@host1 ~]# chkconfig --list kdump kdump 0:off 1:off 2:off 3:on …

10 linux rhel6 server-crashes scientific-linux kdump

4

RHEL7でクラッシュと再起動をどのように区別できますか？

RHEL7サーバーがsystemctl（または再起動/シャットダウンエイリアス）経由で再起動されたかどうか、またはサーバーがクラッシュしたかどうかを判断する方法はありますか？事前にシステム化されていることは、でかなり簡単に判断できましたlast -x runlevelが、RHEL7ではそれほど明確ではありません。

9 systemd server-crashes rhel7 system-monitoring

2

サーバー上のすべてのサービスがダウンし、それでもpingに応答する原因は何ですか？そしてそれを理解する方法

サーバーが完全にダウンすること、つまり、http、ssh、ftp、dns、smtp、を基本的にすべてのサービスが応答を停止することは、数日以内にすでに2回発生しています。、それが私を最も困惑させるものです。私は、ユーザーの小さなグループによって使用される短いバーストでサーバーに大きな負荷（CPUとメモリ）を引き起こすいくつかのPHPスクリプトを持っていますが、通常、サーバーはこれらのバーストに完全に「耐え」、それがダウンした場合このような使用量のピークと一致することは決してありません（関連性があるとは言えませんが、それらの直後には発生しません）。これらのクラッシュの最終的な原因を魔法のように教えてくれるようにあなたに頼んでいるのではありません。私の質問は、単一のプロセスが原因で、これらのすべてのサービスが同時に停止する可能性があるかどうかです。面白いのは、ping以外のすべてのネットワークサービスがダウンすることです。サーバーのCPUが100％消費されている場合、pingにも応答しません。（たとえば）phpスクリプトが壊れているためにApacheがクラッシュした場合、それはhttpにのみ影響し、sshやdnsなどには影響しません。私のOSはCent OS 5.6です最も重要なのは、サーバーをハードリブートした後、どのシステムログを見ればよいですか？/ var / log / messagesは疑わしいものを明らかにしません。

9 centos service server-crashes

1

Dell PowerEdgeサーバーがクラッシュしました、どのように修復しますか？どうした？内部の情報

私は現在高校生で、当校のウェブサイトを運営しています。この夏、私たちのシステム管理者は癌と診断され、彼は治療に出かけたので、私は興味深い状況に陥りました。このWebサーバーの何が問題なのかは本当にわかりませんが、私が手助けできるように迅速に学習しようとしているので、あなたのアイデア/教育/入力をお待ちしています。サーバーはFreeBSDを実行/実行していますが、これはハードウェアの問題であるため、意味がありません。サーバーに同じドライブが5つあることを知っていましたが（それはRaid-5を意味しますか？）、クラッシュの時点では3つの動作中のドライブがありました（「縮退モードで実行していますか？」）。約1週間前、論理ドライブが1つしか見つからなかったため、サーバーは起動しませんでした。私は設定ユーティリティを実行し、これを見ました：その1台のドライブにまだデータが残っていると思いますよね？（実際のOSとWebサーバーのセットアップではなく、Webファイルのバックアップがあります）。私に何が起こったかをよりよく説明できるように追加する必要がある情報があれば、私はそれを喜んで行うつもりです。何が起こったのか、ある時点で何が起こったのか、そしてこれを修正するための対策を講じる方法を理解しようとしています。どうもありがとうございます。

8 web-server dell-poweredge web server-crashes

3

php-fpm設定の何が問題になっていますか？

64ビットサーバーがありますが、RAMは256 MBしかありません。そこで、PHPに接続するためにfast-cgiを使用してnginxサーバーに移動しました。PHP 5.3.6を実行しています。問題は、2〜3日ごとにPHPページにアクセスしようとすると、サーバーの内部エラーが発生することです。唯一の回避策は、php-fpmを手動で再起動することです。これは、チョークを引き起こしているいくつかの間違ったパラメータを設定する必要があったことを意味します。以下に、関連する構成をリストしました。 /etc/php-fpm.conf：- include=/etc/php-fpm.d/*.conf log_level = error ;emergency_restart_threshold = 0 ;emergency_restart_interval = 0 ;process_control_timeout = 0 /etc/php-fpm.d/www.conf：- [www] pm = dynamic pm.max_children = 10 pm.start_servers = 3 pm.min_spare_servers = 2 pm.max_spare_servers = 5 pm.max_requests = 500 /etc/nginx/php.conf：- location ~ \.php { fastcgi_param QUERY_STRING $query_string; fastcgi_param REQUEST_METHOD $request_method; fastcgi_param …

8 nginx fastcgi php-fpm server-crashes

タグ付けされた質問 「server-crashes」

タグ付けされた質問「server-crashes」