プロジェクトでは、50台のサーバーすべてに(通常)同じハードウェアが装備されています。ここにある問題は非常に深刻で、すべてのマシンで発生します。多大な労力と製造業者とソフトウェア開発者への連絡にもかかわらず、誰もが互いに指摘し合い、何が起こっているかについての手がかりを私に与えることさえ拒否します。
まず、セットアップについて説明します。これは「サーバーグレード」ハードウェアです。私の最初の経験では、servergradeは私の人生で最大の失望です。
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540(マザーボードに組み込まれています)
- カスタム設計の1UケースまたはSuperMicroオリジナルケース
- 480ワットのサーバーPSUまたは200ワットのSuperMicroオリジナルPSU
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECCまたはNON-ECC(ただし、同じサーバーに混在させない)
- Asus GT730 4GB DDR3 GPU
- GPUは、PCIeライザーカード(リボンではない)でマウントされ、中国またはSuperMicroからは無名
システムでの実行-Windows Server 2012 R2 Enterprise-VMWare Workstation 12-VMはGPUを多用するタスクを実行します-このシステムは在庫があり、オーバー/アンダークロックはありません
症状-ランダムなBSOD 0x09c(別名Machine_Check_Exception):システムが問題なく1週間実行されることもあれば、10分後にクラッシュすることもありますが、ほとんどの場合、数時間実行されます。
すでに試行/チェック済み:
- BIOSが最新バージョンに更新されました(これにより、システムが安定するまでの時間が改善されたと思いますが、ランダムであった可能性があります)。
- Windowsを最新バージョンに更新しました。
- VMWareを最新バージョンに更新しました。
- すべてのコンポーネントを交換し、さまざまなオプションを試しました。デスクトップATX PSUとM.2 SSDも試しました。
- Ubuntuを使用して、すべてのシステムを最初からインストールした。私はLinuxに精通しておらず、Linux BSODを見たこともありません。サーバーシステムがヘッドレスであり、DCでこれを試してみたので、まだ知りませんでした。結果:システムがハングし、再起動後にLinuxがXORGクラッシュを報告しました(GPU関連)。
- BIOSのGPU設定を「4G以上」に変更しました。残りのBIOSは工場出荷時のデフォルトです。
また有益:
- システムはデータセンターにあります。温度、空気、電力、ネットワークが最適です。
- 温度が工場の最大値を大幅に下回っています
- デスクトップコンピューター(デスクトップハードウェアを使用)でまったく同じソフトウェアセットアップを実行しています。これらのシステムは、毎月100台のPCのうち1台がクラッシュしても問題なく動作します。
- VMWareに問い合わせましたが、これはハードウェアの問題だと言っています
- 私はSuperMicroに連絡しましたが、彼らはいくつかのことを除いて実際には何も言わず、すでに試しました。また、これはまだソフトウェアの問題である可能性があると述べています。
私たちはここで絶望的です。幸運にも私たちが実行するアプリケーションは冗長なものです。サーバーとその上のVMが落ちた場合、それはそのような問題ではありません。他のサーバーが5分以内に負荷を引き継ぎますが、この速度ではサーバーを再起動するために1日中オンラインである必要があります。
私は大規模なハードウェアの知識を持っていますが、これを超えて、さまざまな種類のことを1か月以上試してみました。これらのマザーボードがホスティングプロバイダーで大規模に使用されているという事実は、ボード自体に問題がないと思わせます。50枚のボードすべてに同じ症状があるため、これはRMAの特定のハードウェアの問題ではありません。私たちと唯一異なるのはGPUです。これはLinux実験と組み合わせて、これが間違いなくPCIeレーン上の何かであると私に疑わせます。GPU自体はデスクトップmoboで安定しています。大きなメモリ容量にもかかわらず、これはあまり電力を消費しない小さなGPUです。私は中国のライザーカードを疑っていると思いますが、ここでもSuperMicro認定のライザーを使用しており、まったく改善されていません。
ここで解決策を見つけるのは非常に必死です。これは、正確な原因を特定することから始まります。私たちは、いくつかのダンプを分析し、より詳細な情報を提供できる専門家に素晴らしい報奨金を支払う用意があります。
敬具、
サイモン