GPUは死にかけていますか?


14

NVIDIA K20m(ノード内のデバイス0)でECCメモリ保護を一時的に無効にしましたが、再び動作させることができなくなりました。それ以前は、ECCを有効にして適切に動作していました。だから、ここに私がやったことがあります:私はECCを無効にしました

nvidia-smi -i 0 --ecc-config=0

そして再起動しました。起動すると、100%のGPU使用率が示され、カーネルは起動しませんでした(実際には、コンテキストの作成時に既に失敗しました)。理由はダブルビットエラーでした。でリセットしました

nvidia-smi -i 0 --reset-ecc-errors=0

ノードを再起動しました。再起動後、デバイスの使用率は0%であり、通常どおりジョブを開始できました。数時間後、デバイスは再び100%のGPU使用率を示しました。今回は、ダブルビットエラーを報告しませんでした(シングルビットエラーでさえも)。ただし、ジョブを実行できなかったため、ノードを再起動し、GPU使用率が100%になったため、使用できませんが、ビットエラーは報告されません。これはどうしたの?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
奇妙に見える; このようなものを発見したことはありません。問題の解決に役立たない場合でも、ドライバーを再インストールしてみてください。
ベン・フランシュク

私はあなたがすでにすべてをただスクラップして再インストールする明白なことを試みたと思いますか?つまり、ハードウェアについてほとんど知らないので、私のアプローチは、ソフトウェア-私が理解していること-が必ず機能することを常に確認することです。そして、私はおそらく、より知識のある意見と矛盾するまで、破片を破ると宣言します。
アリアン

私はそれを調べ、この問題とその原因の調査に時間を費やしました。最善の解決策はハードウェアを交換することであるように見えます。
アドヴィ

1
すでにCMOSをリセットしようとしましたか?
セルゲイ14年

回答:


2

GPUは死にかけていますか?

私はそれがすでに死んでいると言います。ビットエラーを検出するものをオフにしたため、ビットエラーは報告されなくなりました。(ECC 修正可能な範囲を超えて検出します。)ただし、障害が発生したのは、カード上のメモリ(または物理カード自体)である可能性があります。

「リサイクル」ビンに入れる前に、冷却と電源の2つの疑いがあります。冷却は簡単に確認できます。パワー、それほどではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.