50台のSuperMicroマシンでのBSOD 0x09c

プロジェクトでは、50台のサーバーすべてに（通常）同じハードウェアが装備されています。ここにある問題は非常に深刻で、すべてのマシンで発生します。多大な労力と製造業者とソフトウェア開発者への連絡にもかかわらず、誰もが互いに指摘し合い、何が起こっているかについての手がかりを私に与えることさえ拒否します。

まず、セットアップについて説明します。これは「サーバーグレード」ハードウェアです。私の最初の経験では、servergradeは私の人生で最大の失望です。

SuperMicro X10SDV-8C + -LN2F
Intel Xeon D-1540（マザーボードに組み込まれています）
カスタム設計の1UケースまたはSuperMicroオリジナルケース
480ワットのサーバーPSUまたは200ワットのSuperMicroオリジナルPSU
Samsung Evo 850 500 GB SSD
32 GB DDR4-2133 ECCまたはNON-ECC（ただし、同じサーバーに混在させない）
Asus GT730 4GB DDR3 GPU
GPUは、PCIeライザーカード（リボンではない）でマウントされ、中国またはSuperMicroからは無名

システムでの実行-Windows Server 2012 R2 Enterprise-VMWare Workstation 12-VMはGPUを多用するタスクを実行します-このシステムは在庫があり、オーバー/アンダークロックはありません

症状-ランダムなBSOD 0x09c（別名Machine_Check_Exception）：システムが問題なく1週間実行されることもあれば、10分後にクラッシュすることもありますが、ほとんどの場合、数時間実行されます。

すでに試行/チェック済み：

BIOSが最新バージョンに更新されました（これにより、システムが安定するまでの時間が改善されたと思いますが、ランダムであった可能性があります）。
Windowsを最新バージョンに更新しました。
VMWareを最新バージョンに更新しました。
すべてのコンポーネントを交換し、さまざまなオプションを試しました。デスクトップATX PSUとM.2 SSDも試しました。
Ubuntuを使用して、すべてのシステムを最初からインストールした。私はLinuxに精通しておらず、Linux BSODを見たこともありません。サーバーシステムがヘッドレスであり、DCでこれを試してみたので、まだ知りませんでした。結果：システムがハングし、再起動後にLinuxがXORGクラッシュを報告しました（GPU関連）。
BIOSのGPU設定を「4G以上」に変更しました。残りのBIOSは工場出荷時のデフォルトです。

また有益：

システムはデータセンターにあります。温度、空気、電力、ネットワークが最適です。
温度が工場の最大値を大幅に下回っています
デスクトップコンピューター（デスクトップハードウェアを使用）でまったく同じソフトウェアセットアップを実行しています。これらのシステムは、毎月100台のPCのうち1台がクラッシュしても問題なく動作します。
VMWareに問い合わせましたが、これはハードウェアの問題だと言っています
私はSuperMicroに連絡しましたが、彼らはいくつかのことを除いて実際には何も言わず、すでに試しました。また、これはまだソフトウェアの問題である可能性があると述べています。

私たちはここで絶望的です。幸運にも私たちが実行するアプリケーションは冗長なものです。サーバーとその上のVMが落ちた場合、それはそのような問題ではありません。他のサーバーが5分以内に負荷を引き継ぎますが、この速度ではサーバーを再起動するために1日中オンラインである必要があります。

私は大規模なハードウェアの知識を持っていますが、これを超えて、さまざまな種類のことを1か月以上試してみました。これらのマザーボードがホスティングプロバイダーで大規模に使用されているという事実は、ボード自体に問題がないと思わせます。50枚のボードすべてに同じ症状があるため、これはRMAの特定のハードウェアの問題ではありません。私たちと唯一異なるのはGPUです。これはLinux実験と組み合わせて、これが間違いなくPCIeレーン上の何かであると私に疑わせます。GPU自体はデスクトップmoboで安定しています。大きなメモリ容量にもかかわらず、これはあまり電力を消費しない小さなGPUです。私は中国のライザーカードを疑っていると思いますが、ここでもSuperMicro認定のライザーを使用しており、まったく改善されていません。

ここで解決策を見つけるのは非常に必死です。これは、正確な原因を特定することから始まります。私たちは、いくつかのダンプを分析し、より詳細な情報を提供できる専門家に素晴らしい報奨金を支払う用意があります。

敬具、

サイモン

supermicro bsod

— ユーザー349749
ソース

私はこのボードに少し慣れていて、自分自身を持っています...ここには可動部分が多すぎて、それらが何であるかについての説明が少なすぎます。VMware Workstationの用途は何ですか？それらの中でどのアプリケーションが実行されていますか？GPUはどのようにVMに渡されますか？

— マイケルハンプトン

VMは、GPUロードを必要とするWindows企業を実行しています。これ以上詳しく説明することはできません。これはVMWare Workstationであり、GPUは仮想化されています。これも実際には問題になりません。問題なくデスクトップハードウェアでまったく同じように動作します。

— user349749

デスクトップハードウェアで実行していないため、問題になります。

— マイケルハンプトン

マザーボードとGPUの間に互換性がないと思われます。運が良ければ、BIOSで修正できるかもしれませんが、私はそれにはあまり期待していません。これは標準のLinuxカーネルで再現可能であるため、おそらく発生するカーネルパニックに関する詳細情報を取得しようとします。

— 法律29

VMの内部で何が実行されるかは問題ではありません。それはポルノをレンダリングするかもしれないし、多分それはエイズの治療法を見つけるための対数です。重要なのは、標準のGPUロードです。@ Law29; それがまさに私の気持ちです。Linuxはカーネルパニックを本当に私に与えませんでした。サーバーはクラッシュせず、GUIのみでした。

— user349749

まあ、これは超遅いです、問題はこの時点で解決されると思いますか？どちらの方法でも、通常0x9CはMCEハードウェア障害を意味します。GPUシステムはLinuxをホストOSとして実行し、これらのエラーをWindowsよりも少し詳細に報告します。

とにかく、しばらく前にHP製の同様のハードウェアでランダムにポップアップ表示されていましたが、GPUへの電力供給が不十分でした。具体的には、PCIeポート自体から供給されることになっている75W。

PCIeブレイクアウトボード上のマルチメーターで確認しました。GPUと10Gbeの両方のネットワークカードに同時に大きな負荷がかかっていると、電圧が低下しました。マザーボードはx16スロットに75Wを供給できましたが、他のカードがすべて電力を消費しているとき、電力供給セクションは少し苦労しました。

ここでライザーが疑われ、高電流負荷で電圧が低下している可能性があります。

— TriadicTech
ソース

お返事をありがとうございます。今から3年後です。Supermicroはあらゆる方法で私たちを助けることを拒否しました。複数のマシンを送信しました（私たちが作成したとおり）。彼らによると、彼らは数週間彼らをストレステストし、彼らは決して墜落しませんでした。

ライザーについては、スロット内のGPUで直接同じエラーが発生します。

SupermicroはVMWareを非難し続けています。これは、同じボードの新しいリリースを手に入れるまで、私は信じがたいものでした。Supermicroからのコメントなしで、Xeon D-1540を搭載したボードは、数か月後にXeon D-1541に更新されました。新しいボードは基本的に新しいCPUと同じです（クロック速度もわずかに高いだけです）。更新されたボードには、追加のファンヘッダーも追加されています。

これらのボードはクラッシュしなくなりました。まったく同じ負荷で、問題なく数か月間実行されます。ここでマシンのクローンを作成しましたが、クラッシュしたマシンとまったく同じハードウェアとソフトウェアを実行しています。

この種の私の疑いを確認します。Supermicroはボードに問題があることを知っていますが、クラッシュのためにこれらのボードのほぼ100が役に立たなくなったため、理由を教えたくありません。彼らは決してそれをRMAしたり、BIOSのアップデートすら修正したりしなかったので、それはボード上の何かだったに違いありません。

言うまでもなく、これはSupermicroでの私の最初で最後の時間でした。これはどのブランドのコースにも起こり得ますが、サポートはゼロ以下でした。

— サイモン・アレー
ソース