数十台のProxmoxサーバー(ProxmoxはDebian上で実行されます)があり、月に1回程度、そのうちの1台にカーネルパニックが発生してロックアップします。これらのロックアップに関する最悪の部分は、サーバーがクラスターマスターとは別のスイッチ上にある場合、そのスイッチ上の他のすべてのProxmoxサーバーは、実際にクラッシュしたサーバーを見つけて再起動するまで応答を停止することです。
この問題をProxmoxフォーラムで報告したときに、Proxmox 3.1にアップグレードするようにアドバイスされました。私たちは過去数か月間それを行っています。残念ながら、Proxmox 3.1に移行したサーバーの1つは、金曜日にカーネルパニックでロックされ、クラッシュしたサーバーを見つけて再起動するまで、同じスイッチ上にあるすべてのProxmoxサーバーにネットワーク経由で到達できませんでした。
ええと、スイッチ上のほとんどすべてのProxmoxサーバー...同じスイッチ上のProxmoxサーバーが、Proxmoxバージョン1.9のままであったことは、影響を受けなかったことが興味深いものでした。
クラッシュしたサーバーのコンソールのスクリーンショットは次のとおりです。
サーバーがロックアップすると、同じスイッチ上にある、Proxmox 3.1を実行していた残りのサーバーが到達不能になり、次の問題が発生しました。
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname-ロックされたサーバーの出力:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v出力(省略形):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
2つの質問:
カーネルパニックの原因となる手がかり(上記の画像を参照)
ロックされたサーバーが再起動されるまで、同じスイッチとバージョンのProxmox上の他のサーバーがネットワークから切断されるのはなぜですか?(注:同じスイッチ上に、以前のバージョンの1.9バージョンのProxmoxを実行していた他のサーバーは影響を受けませんでした。また、同じ3.1クラスター内の他のProxmoxサーバーは影響を受けず、同じスイッチ上にありませんでした。)
アドバイスを事前にありがとう。