1
GPUは死にかけていますか?
NVIDIA K20m(ノード内のデバイス0)でECCメモリ保護を一時的に無効にしましたが、再び動作させることができなくなりました。それ以前は、ECCを有効にして適切に動作していました。だから、ここに私がやったことがあります:私はECCを無効にしました nvidia-smi -i 0 --ecc-config=0 そして再起動しました。起動すると、100%のGPU使用率が示され、カーネルは起動しませんでした(実際には、コンテキストの作成時に既に失敗しました)。理由はダブルビットエラーでした。でリセットしました nvidia-smi -i 0 --reset-ecc-errors=0 ノードを再起動しました。再起動後、デバイスの使用率は0%であり、通常どおりジョブを開始できました。数時間後、デバイスは再び100%のGPU使用率を示しました。今回は、ダブルビットエラーを報告しませんでした(シングルビットエラーでさえも)。ただし、ジョブを実行できなかったため、ノードを再起動し、GPU使用率が100%になったため、使用できませんが、ビットエラーは報告されません。これはどうしたの? GPU 0000:02:00.0 Product Name : Tesla K20m Display Mode : Disabled Persistence Mode : Enabled Driver Model Current : N/A Pending : N/A Serial Number : 0324512044699 GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997 VBIOS Version : 80.10.11.00.0B Inforom Version Image …