まず第一に、メーカーが認めたい以上にハードドライブが故障することは誰もが知っていると思います。Googleは、ハードドライブのSMARTステータスが報告する特定の生データ属性が、ドライブの将来の障害と強い相関関係を持つ可能性があることを示す調査を行いました。
たとえば、最初のスキャンエラーの後、ドライブはそのようなエラーのないドライブよりも60日以内に39倍故障する可能性が高いことがわかります。再割り当て、オフライン再割り当て、および保護観察カウントの最初のエラーも、高い障害確率と強く相関しています。これらの強力な相関関係にもかかわらず、故障したドライブの大部分がSMARTエラー信号をまったく示さなかったことを考えると、SMARTパラメータのみに基づく故障予測モデルは予測精度が大幅に制限される可能性が高いことがわかります。
Seagateは、ソフトウェアのみがドライブの正確なステータスを正確に判断できると主張し、ソフトウェアがSMART属性の生データ値を通知しない方法で、ドライブに関するこの情報を隠そうとしているようです。Western Digitalは私の知る限りそのような主張をしていませんが、彼らのステータスレポートツールは生データ値もレポートしていないようです。
各属性の生データ値を収集するために、smartmontoolsのHDtuneとsmartctlを使用しています。確かに...特定の属性に関しては、リンゴとオレンジを比較しています。たとえば、ほとんどのSeagateドライブでは、数百万の読み取りエラーがあると報告されますが、ウェスタンデジタル99%は読み取りエラーに対して0を示します。また、Seagateは何百万ものシークエラーを報告しますが、Western Digitalは常に0を報告するようです。
Q:このデータを正規化するにはどうすればよいですか?Seagateは何百万ものエラーを生成していますが、Western Digitalは何も生成していませんか?SMARTステータスに関するウィキペディアの記事によると、製造業者にはこのデータを報告するさまざまな方法があります。
私の仮説は次のとおりです。
データを正規化する方法を見つけたと思います(正しい用語ですか?)。
Seagateドライブには、Western Digitalドライブにはない追加の属性があります(ハードウェアECCリカバリ済み)。ECC回復カウントから読み取りエラーカウントを差し引くと、おそらく0になります。これは、Western Digitalが報告した「読み取りエラー」カウントと同等のようです。これは、Western Digitalが修正できない読み取りエラーのみを報告し、Seagateがすべての読み取りエラーをカウントし、修正できたエラーの数を通知することを意味します。
読み取りエラーカウントがECCリカバリカウントよりも少ないSeagateドライブがあり、ファイルの多くが破損していることに気付きました。これが私の仮説を思いついた方法です。シーゲイトが生成する何百万ものシークエラーは未だに謎です。
追加情報がある場合は、私の仮説を確認または修正してください。
ここに私の西部のデジタルドライブのスマートステータスがありますので、私が話していることを見ることができます。
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
編集:ここで私が話していたSeagateドライブはデータ破損の原因でした。このデータはHDTuneからのものです。
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
ハードウェアECCリカバリがRaw読み取りエラーレートよりも大きいという事実は、私の意見では直観に反しています。
これは、ECC RecoveredがRaw Read Error Rateと一致する「通常の」シーゲイトドライブであることがわかりました。
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
編集:
Googleは一般的にSMARTを役に立たないと考えていることを知っていることを明確にしたい。誰もが自分のデータをバックアップする必要があることを知っています。しかし、私は他の人のコンピューターを修理する仕事をしています。ほとんどの人はバックアップもRAIDも持っていません。企業がハードドライブのトラブルシューティングを行うのは費用対効果が高くないため、ハードドライブが死ぬまでRAIDで実行するだけです。私の仕事の中で、ハードドライブのSMARTステータスを確認すると便利だと思います。30秒ほどかかります。不良ドライブがスキャンエラーや再割り当てされたセクターなどの失敗のヒントを表示するのに十分幸運であれば、そこからドライブを完全に取得することを知っています。そのようなヒントが存在しない場合、ハードドライブが不良であることが最終的に判明するまで、おそらく低速化とデータ破損のトラブルシューティングに何時間も費やします。
このプロセスを微調整しようとしています。