SMART Hardware_ECC_Recoveredの値が高いことを心配する必要がありますか？

16

私はそのようなメッセージを受け取りました/var/log/messages：


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda：


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

ディスクに障害があり、交換する必要があるということですか？SMARTテスト結果の解釈についてどこで読むことができますか？

linux hardware smart

— lexsys
ソース

13

Spinriteの名声であるSteve Gibsonによると、SMART値は瞬間的な読み取り値としてではなく、時間の経過とともに取得する必要があります。つまり、値が47か月間、値が47であっても、必ずしも悪い値ではありません。ただし、値が1時間前に42で、急速に上昇した場合、ドライブがデータの一部にアクセスするのが困難になり、すぐにセクターをまったく読み取れなくなる可能性があります。そのドライブのデータの値に応じて、交換することをお勧めします。

— デイブ・チェイニー
ソース

+1をすれば、すばらしい答えが得られます。もしあなたが本当にLexsysに関心があるなら、私はスピライトのコピーを買ってそれを実行するでしょう。システムをCDから起動できるようにする必要がありますが、OSは無関係です。（ブートCDを作成するには、WindowsまたはWindowsクローンが必要です）

— Matt

Spinriteには、ブート可能な（freedos）.isoイメージが付属しており、現在のOSで書き込むことができます

— Dave Cheney

grc.com/sr/spinrite.htmは、リンクするのに適した場所です

— Brad Gilbert

2

例は間違っています！@CesarBの答えを参照してください-ほとんどの値については、増やすことは良いことです！1時間前に42だったら、今は47になります。しかし、その逆ではありません。

— フォルカーシーゲル14

6

この属性の高い値は実際にはかなり良いです：

ハードウェアECCリカバリ済みSMARTパラメーターは、ECC修正済みエラー間の時間を示します。

https://kb.acronis.com/content/9131

— ロバート・クレム
ソース

2

私が中心的な引用であると信じるものを追加しました。

— ロバートクレム

これは、リンクされたリソースがなくなっても意味があります。ロバートに感謝します。

— 雛

4

まず、SMARTの場合、低い値は悪い値であり、高い値ではありません（しきい値列が常に現在の値よりも低いことに注意してください）。したがって、値を増やしても心配する必要はありません。（ただし、このルールは生の値には適用されません。）

SMART値は少し変動する傾向があります（たとえば、46〜47のエッジにある可能性があるため、小さな変更でも他の値に反転する可能性があります）。

あなたのsmartctl -a最悪この値がされている出力ショーは、それが正常です少し上oscilatingので、45です。

詳細については、Wikipedia：ATA SMART attributesをご覧ください。

— セザール
ソース

3

Googleが実施した大規模な調査でも、多数のドライブ障害がSMARTエラーによって予測されることはなかったことに留意してください。表示されているものが完全に正常である可能性はありますが、各メーカーは生の値をレポート値に変換するための異なるメトリックを持っているため、ドライブが多くのエラーを経験しているかどうかを確認するのは困難です。ただし、生の数値が大きいと、奇妙に感じます。

すべてのドライブを読み取り（新しいドライブにddまたはrsync 'する）、SMART値を確認することをお勧めします。その生の数値、または報告された値が表示される場合は、ドライブを交換するために多くの変更を探し始めます。

— ジェイソン
ソース

ほら ZFSが独自の使用パターンに対してSMART属性を追跡するのはかなりクールです。

— i336_

1

何も問題はありません。

いつでも実行できます

smartctl -t long /dev/yourdrive

次に、数時間後にその結果を照会します

smartctl -a /dev/yourdrive

念のために。

— cstamas
ソース

1

回復されたIIRCハードウェアECCは、ディスク読み取りのエラー修正です。これはディスクにとって珍しいことではなく、正確にこの理由でエラー修正メカニズムでデータをエンコードします。一部のコントローラーは、ディスクセクターの冗長情報もサポートし、エラー修正の別のレイヤーを追加します。

デイブ・チェイニーが述べているように、数字は長期にわたって監視されるべきです。これらの統計の急激な変化は、故障したドライブを示しています。また、成長した欠陥リストに注意してください-成長した欠陥リストが成長し始めるか、SMART統計が大幅に変化し始めたら、予防的にドライブを交換する必要があります。

— ConcernedOfTunbridgeWells
ソース

1

笑、予防的に

— デイブチェイニー